menu
close

Bigo ang AI Vision Models sa Mahalagang Pagsubok ng Negasyon sa Medikal na Larawan

Natuklasan ng mga mananaliksik mula sa MIT na ang mga vision-language model na malawakang ginagamit sa pagsusuri ng mga medikal na larawan ay hindi nakakaunawa ng mga salitang negasyon tulad ng 'wala' at 'hindi'. Ang kritikal na limitasyong ito ay maaaring magdulot ng seryosong pagkakamali sa diagnosis kapag ginagamit ang mga AI system na ito upang maghanap ng mga medikal na larawan na may partikular na pamantayan. Inilathala noong Mayo 14, 2025, ipinakilala ng pag-aaral ang NegBench, isang bagong benchmark upang suriin at pagbutihin ang pag-unawa sa negasyon ng mga AI vision system.
Bigo ang AI Vision Models sa Mahalagang Pagsubok ng Negasyon sa Medikal na Larawan

Isang bagong pag-aaral mula sa mga mananaliksik ng MIT ang nagbunyag ng pangunahing kahinaan sa mga vision-language model (VLM) na maaaring magdulot ng seryosong epekto sa medikal na diagnostic at iba pang kritikal na aplikasyon.

Pinangunahan ng research team nina Kumail Alhamoud at ng senior author na si Marzyeh Ghassemi mula sa Department of Electrical Engineering and Computer Science ng MIT, natuklasan na ang mga AI system na ito—na lalong ginagamit sa pagsusuri ng mga medikal na larawan—ay hindi nakakaunawa ng mga salitang negasyon gaya ng 'wala' at 'hindi' sa mga tanong o utos.

Nagiging lalo itong problema sa kontekstong medikal. Halimbawa, kapag sinusuri ng isang radiologist ang chest X-ray na nagpapakita ng pamamaga ng tissue ngunit walang paglaki ng puso, maaaring magdulot ng maling diagnosis ang paggamit ng AI system upang maghanap ng mga kahalintulad na kaso kung hindi nito kayang makilala ang pagkakaiba ng presensya at kawalan ng partikular na kondisyon.

"Ang mga salitang negasyon ay maaaring magkaroon ng napakalaking epekto, at kung basta-basta nating gagamitin ang mga modelong ito, maaari tayong humantong sa mapaminsalang resulta," babala ni Alhamoud, ang pangunahing may-akda. Nang subukin ang kakayahan ng mga modelo sa pagkilala ng negasyon sa mga caption ng larawan, hindi ito lumampas sa antas ng random na paghula.

Upang tugunan ang problemang ito, binuo ng mga mananaliksik ang NegBench, isang komprehensibong benchmark na may 79,000 halimbawa mula sa 18 uri ng gawain na sumasaklaw sa mga dataset ng larawan, video, at medikal. Sinusuri ng benchmark ang dalawang pangunahing kakayahan: ang paghahanap ng mga larawan batay sa mga tanong na may negasyon at pagsagot ng multiple-choice na tanong na may negated na caption.

Lumikha rin ang grupo ng mga dataset na may espesipikong halimbawa ng negasyon upang muling sanayin ang mga modelong ito, na nagresulta sa 10% pagtaas sa recall para sa mga tanong na may negasyon at 28% pagtaas sa accuracy sa multiple-choice na tanong na may negated na caption. Gayunpaman, nagbabala sila na kinakailangan pa ng mas malalim na pag-aaral upang matugunan ang ugat ng problemang ito.

"Kung ang isang bagay na kasing-pundamental ng negasyon ay may depekto, hindi natin dapat ginagamit ang malalaking vision/language model sa maraming paraan na ginagawa natin ngayon—nang walang masusing pagsusuri," diin ni Ghassemi.

Ipiprisinta ang pananaliksik sa nalalapit na Conference on Computer Vision and Pattern Recognition, na binibigyang-diin ang agarang pangangailangan para sa mas matibay na AI system sa mga kritikal na aplikasyon gaya ng healthcare.

Source:

Latest News