menu
close

Nabigong Maunawaan ng AI Vision Models ang Negation, Nanganganib ang mga Pagkakamali sa Medisina

Natuklasan ng mga mananaliksik mula sa MIT na hindi kayang maintindihan ng vision-language models (VLMs) ang mga salitang naglalaman ng negation tulad ng 'hindi' at 'wala', at ang kanilang performance ay hindi mas mataas kaysa sa random na paghula sa mga pagsusulit. Ang pangunahing kakulangan na ito ay maaaring magdulot ng seryosong pagkakamali sa diagnosis sa larangan ng kalusugan, kung saan mahalaga ang pagdistinguish ng mga kondisyong naroroon at wala. Bumuo ang research team, pinangunahan nina Kumail Alhamoud at Marzyeh Ghassemi, ng isang benchmark na tinatawag na NegBench upang suriin at mapabuti ang mga modelong ito.
Nabigong Maunawaan ng AI Vision Models ang Negation, Nanganganib ang mga Pagkakamali sa Medisina

Isang makabagong pag-aaral mula sa MIT ang nagbunyag ng kritikal na kakulangan sa vision-language models (VLMs) na maaaring magdulot ng seryosong epekto sa kanilang paggamit sa healthcare at iba pang mga larangang may mataas na panganib.

Sa pag-aaral, natuklasan ng mga mananaliksik mula sa MIT na malaki ang posibilidad na magkamali ang VLMs sa mga totoong sitwasyon dahil hindi nila nauunawaan ang negation — mga salitang tulad ng "hindi" at "wala" na nagsasaad ng kawalan o hindi totoo. "Ang mga salitang iyon ay maaaring magkaroon ng napakalaking epekto, at kung basta-basta nating gagamitin ang mga modelong ito, maaari tayong humantong sa malubhang resulta," ayon kay Kumail Alhamoud, graduate student ng MIT at pangunahing may-akda ng pag-aaral.

Ipinakita ng mga mananaliksik ang problema gamit ang isang halimbawa sa medisina: Isipin ang isang radiologist na sumusuri ng chest X-ray at napansin na may pamamaga ang pasyente sa tissue ngunit wala namang paglaki ng puso. Sa ganitong sitwasyon, malamang na hindi magawang ihiwalay ng vision-language models ang dalawang kondisyong ito. Kung maling matukoy ng modelo na pareho ang kondisyon sa ulat, maaaring malaki ang epekto nito sa diagnosis: Ang pasyenteng may pamamaga ng tissue at pinalaking puso ay malamang na may kondisyon sa puso, ngunit kung walang paglaki ng puso, maaaring iba ang sanhi.

Sa pagsusuri ng kakayahan ng vision-language models na tukuyin ang negation sa mga caption ng larawan, natuklasan ng mga mananaliksik na kadalasan ay kasing-bisa lamang ito ng random na paghula. Dahil dito, bumuo ang grupo ng dataset ng mga larawan na may kasamang caption na naglalaman ng mga salitang naglalarawan ng kawalan ng mga bagay. Ipinakita nila na kapag niretrain ang VLM gamit ang dataset na ito, gumaganda ang performance nito kapag pinapahanap ang mga larawang walang partikular na bagay. Tumataas din ang accuracy nito sa multiple choice question answering na may negated captions. Gayunpaman, nagbabala ang mga mananaliksik na kailangan pa ng mas malalim na pag-aaral upang matugunan ang ugat ng problema.

"Hindi lang ito nangyayari sa mga salitang 'hindi' at 'wala.' Kahit paano mo ipahayag ang negation o exclusion, binabalewala lang ito ng mga modelo," ayon kay Alhamoud. Pare-pareho ang resulta sa lahat ng VLM na kanilang sinubukan. Ang pangunahing isyu ay nagmumula sa paraan ng pagsasanay ng mga modelong ito. "Ang mga caption ay naglalarawan ng kung ano ang nasa larawan — positibong label ito. At dito nag-uugat ang problema. Walang naglalagay ng caption sa larawan ng asong tumatalon sa bakod na nagsasabing 'isang asong tumatalon sa bakod, na walang helicopter,'" paliwanag ni Marzyeh Ghassemi, senior author. Dahil walang halimbawa ng negation sa mga image-caption dataset, hindi natututo ang VLMs na kilalanin ito.

"Kung ang isang bagay na kasinghalaga ng negation ay sira, hindi natin dapat basta gamitin ang malalaking vision/language models sa paraan ng paggamit natin ngayon — nang walang masusing pagsusuri," ayon kay Ghassemi, associate professor sa Department of Electrical Engineering and Computer Science at miyembro ng Institute of Medical Engineering Sciences. Ang pananaliksik, na ipipresenta sa Conference on Computer Vision and Pattern Recognition, ay isinagawa ng mga mananaliksik mula sa MIT, OpenAI, at Oxford University.

Malaki ang epekto ng natuklasang ito para sa mga larangang may mataas na panganib tulad ng safety monitoring at healthcare. Ang kanilang pananaliksik, kabilang ang pagbuo ng NegBench — isang komprehensibong benchmark para sa pagsusuri ng VLMs sa mga negation-specific na gawain — ay mahalagang hakbang tungo sa mas matatag na AI systems na may mas malalim na pag-unawa sa wika, na kritikal para sa medical diagnostics at semantic content retrieval.

Source: Mit

Latest News