Isang kritikal na depekto sa mga sistemang artificial intelligence na ginagamit sa pagsusuri ng mga medikal na imahe ang maaaring magdulot ng panganib sa mga pasyente, ayon sa bagong pananaliksik mula MIT na inilathala ngayong linggo.
Pinangunahan nina graduate student Kumail Alhamoud at Associate Professor Marzyeh Ghassemi ang pag-aaral na nagpapakita na ang mga vision-language model (VLMs) – mga AI system na malawakang ginagamit sa mga institusyong pangkalusugan – ay lubos na nabibigo sa pag-unawa ng mga salitang negasyon tulad ng 'wala' at 'hindi' kapag nagsusuri ng mga medikal na imahe.
"Ang mga salitang negasyon ay maaaring magkaroon ng napakalaking epekto, at kung basta-basta nating gagamitin ang mga modelong ito, maaari tayong humantong sa mapaminsalang mga resulta," babala ni Alhamoud, pangunahing may-akda ng pag-aaral.
Ipinakita ng mga mananaliksik ang problemang ito sa isang klinikal na halimbawa: kung ang isang radiologist ay tumingin sa chest X-ray na nagpapakita ng pamamaga ng tissue ngunit walang paglaki ng puso, maaaring maling maghanap ang AI system ng mga kaso na may parehong kondisyon, na maaaring magdulot ng ganap na maling diagnosis. Nang pormal na subukan, ang mga AI model na ito ay hindi nagpakita ng mas mahusay na resulta kaysa sa random na paghula sa mga gawain na may negasyon.
Upang tugunan ang seryosong limitasyong ito, binuo ng grupo ang NegBench, isang komprehensibong framework sa pagsusuri na sumasaklaw sa 18 uri ng gawain at 79,000 halimbawa mula sa mga dataset ng imahe, video, at medikal. Ang kanilang mungkahing solusyon ay ang muling pagsasanay ng mga VLM gamit ang mga espesyal na dataset na naglalaman ng milyun-milyong caption na may negasyon, na nagpakita ng magagandang resulta – tumaas ng 10% ang recall sa mga query na may negasyon at umangat ng 28% ang accuracy sa mga multiple-choice na tanong na may negated captions.
"Kung ang isang bagay na kasinghalaga ng negasyon ay sira, hindi natin dapat ginagamit ang malalaking vision/language model sa maraming paraan na ginagawa natin ngayon – nang walang masusing pagsusuri," babala ni Ghassemi, na binigyang-diin ang pangangailangan ng maingat na pag-evaluate bago gamitin ang mga sistemang ito sa mga sensitibong medikal na sitwasyon.
Ang pananaliksik, na kinabibilangan ng mga katuwang mula sa OpenAI at Oxford University, ay ipiprisinta sa nalalapit na Conference on Computer Vision and Pattern Recognition. Ginawang pampubliko ng grupo ang kanilang benchmark at code upang makatulong sa pagtugon sa kritikal na isyung ito ng AI safety.