MIT ஆராய்ச்சியாளர்கள் நடத்திய புதிய ஆய்வு, காட்சி-மொழி மாதிரிகளில் (Vision-Language Models, VLMs) அடிப்படையான குறைபாடு ஒன்றை வெளிப்படுத்தியுள்ளது. இது மருத்துவத் துல்லியத்திலும், பிற முக்கிய பயன்பாடுகளிலும் தீவிர விளைவுகளை ஏற்படுத்தக்கூடும்.
MIT மின் பொறியியல் மற்றும் கணினி அறிவியல் துறையின் குமெயில் அல்-ஹமூத் மற்றும் மூத்த ஆசிரியர் மார்சியே காசெமி தலைமையிலான குழு, மருத்துவ படங்களை பகுப்பாய்வு செய்ய அதிகம் பயன்படுத்தப்படும் இந்த AI அமைப்புகள், 'இல்லை', 'இல்லாமல்' போன்ற எதிர்மறைச் சொற்களை கேள்விகளில் புரிந்துகொள்ள முடியவில்லை என்பதை கண்டறிந்தது.
இந்த குறைபாடு மருத்துவ சூழலில் மிகவும் கவலைக்கிடமாகிறது. உதாரணமாக, ஒரு கதிர்வீச்சு நிபுணர், இதயம் பெரிதாக இல்லாமல் திசு வீக்கம் உள்ள மார்பு எக்ஸ்ரேவை ஆய்வு செய்யும் போது, அதேபோன்ற படங்களை கண்டறிய AI அமைப்பை பயன்படுத்தினால், அந்த மாதிரி எதிர்மறை நிலையை வேறுபடுத்த முடியாவிட்டால் தவறான முடிவுகள் ஏற்படலாம்.
"இந்த எதிர்மறைச் சொற்கள் மிக முக்கியமான தாக்கத்தை ஏற்படுத்தும். இந்த மாதிரிகளை விழிப்புடன் பயன்படுத்தாவிட்டால், பேரழிவான விளைவுகள் ஏற்படலாம்," என்கிறார் முதன்மை ஆசிரியர் அல்-ஹமூத். பட விளக்கங்களில் எதிர்மறைச் சொற்களை கண்டறியும் திறனை சோதித்தபோது, இந்த மாதிரிகள் சீரற்ற ஊகிப்பதைவிட சிறப்பாக செயல்படவில்லை.
இந்த சிக்கலை சமாளிக்க, ஆராய்ச்சியாளர்கள் NegBench என்ற விரிவான தரநிலையை உருவாக்கினர். இதில் படம், வீடியோ மற்றும் மருத்துவ தரவுத்தளங்களில் இருந்து 18 வேறுபட்ட பணிகளில் 79,000 எடுத்துக்காட்டுகள் உள்ளன. இந்த தரநிலை, எதிர்மறை கேள்விகளுக்கு ஏற்ப படம் தேடுதல் மற்றும் எதிர்மறை விளக்கங்களுடன் பல தேர்வு கேள்விகளுக்கு பதிலளித்தல் என்ற இரண்டு முக்கிய திறன்களை மதிப்பீடு செய்கிறது.
மேலும், எதிர்மறைச் சொற்கள் அடங்கிய எடுத்துக்காட்டுகளுடன் புதிய தரவுத்தளங்களை உருவாக்கி, இந்த மாதிரிகளை மீண்டும் பயிற்சி அளித்தனர். இதன் மூலம் எதிர்மறை கேள்விகளில் 10% நினைவூட்டல் (recall) மேம்பாடு மற்றும் எதிர்மறை விளக்கங்களுடன் பல தேர்வு கேள்விகளில் 28% துல்லியம் (accuracy) அதிகரிப்பு கிடைத்தது. இருப்பினும், இந்த சிக்கலின் அடிப்படை காரணங்களை தீர்க்க இன்னும் அதிகமான வேலை தேவைப்படுவதாக அவர்கள் எச்சரிக்கின்றனர்.
"எதிர்மறை போன்ற அடிப்படை அம்சம் கூட சரியாக செயல்படவில்லை என்றால், தற்போது நாம் பயன்படுத்தும் பல வழிகளில் பெரிய காட்சி/மொழி மாதிரிகளை தீவிர மதிப்பீடு இல்லாமல் பயன்படுத்தக் கூடாது," என வலியுறுத்துகிறார் காசெமி.
இந்த ஆய்வு, வரவிருக்கும் கணினி காட்சி மற்றும் வடிவமைப்பு மாநாட்டில் (Conference on Computer Vision and Pattern Recognition) வழங்கப்பட உள்ளது. மருத்துவம் போன்ற முக்கிய துறைகளில் மேலும் வலுவான AI அமைப்புகள் அவசியம் என்பதைக் குறிப்பிடுகிறது.