Isang bagong pag-aaral mula sa mga mananaliksik ng MIT ang nagbunyag ng pangunahing kahinaan sa mga vision-language model (VLM) na maaaring magdulot ng seryosong epekto sa medikal na diagnostic at iba pang kritikal na aplikasyon.
Pinangunahan ng research team nina Kumail Alhamoud at ng senior author na si Marzyeh Ghassemi mula sa Department of Electrical Engineering and Computer Science ng MIT, natuklasan na ang mga AI system na ito—na lalong ginagamit sa pagsusuri ng mga medikal na larawan—ay hindi nakakaunawa ng mga salitang negasyon gaya ng 'wala' at 'hindi' sa mga tanong o utos.
Nagiging lalo itong problema sa kontekstong medikal. Halimbawa, kapag sinusuri ng isang radiologist ang chest X-ray na nagpapakita ng pamamaga ng tissue ngunit walang paglaki ng puso, maaaring magdulot ng maling diagnosis ang paggamit ng AI system upang maghanap ng mga kahalintulad na kaso kung hindi nito kayang makilala ang pagkakaiba ng presensya at kawalan ng partikular na kondisyon.
"Ang mga salitang negasyon ay maaaring magkaroon ng napakalaking epekto, at kung basta-basta nating gagamitin ang mga modelong ito, maaari tayong humantong sa mapaminsalang resulta," babala ni Alhamoud, ang pangunahing may-akda. Nang subukin ang kakayahan ng mga modelo sa pagkilala ng negasyon sa mga caption ng larawan, hindi ito lumampas sa antas ng random na paghula.
Upang tugunan ang problemang ito, binuo ng mga mananaliksik ang NegBench, isang komprehensibong benchmark na may 79,000 halimbawa mula sa 18 uri ng gawain na sumasaklaw sa mga dataset ng larawan, video, at medikal. Sinusuri ng benchmark ang dalawang pangunahing kakayahan: ang paghahanap ng mga larawan batay sa mga tanong na may negasyon at pagsagot ng multiple-choice na tanong na may negated na caption.
Lumikha rin ang grupo ng mga dataset na may espesipikong halimbawa ng negasyon upang muling sanayin ang mga modelong ito, na nagresulta sa 10% pagtaas sa recall para sa mga tanong na may negasyon at 28% pagtaas sa accuracy sa multiple-choice na tanong na may negated na caption. Gayunpaman, nagbabala sila na kinakailangan pa ng mas malalim na pag-aaral upang matugunan ang ugat ng problemang ito.
"Kung ang isang bagay na kasing-pundamental ng negasyon ay may depekto, hindi natin dapat ginagamit ang malalaking vision/language model sa maraming paraan na ginagawa natin ngayon—nang walang masusing pagsusuri," diin ni Ghassemi.
Ipiprisinta ang pananaliksik sa nalalapit na Conference on Computer Vision and Pattern Recognition, na binibigyang-diin ang agarang pangangailangan para sa mas matibay na AI system sa mga kritikal na aplikasyon gaya ng healthcare.