AI-visionsmodeller missförstår negation – risk för medicinska fel

Forskare vid MIT har upptäckt att visionsspråkliga modeller (VLM:er) inte förstår negationsord som 'nej' och 'inte', och presterar inte bättre än slumpen i tester. Denna grundläggande brist kan leda till allvarliga diagnostiska fel inom sjukvården, där det är avgörande att skilja mellan närvaro och frånvaro av tillstånd. Forskarteamet, lett av Kumail Alhamoud och Marzyeh Ghassemi, har utvecklat ett riktmärke kallat NegBench för att utvärdera och förbättra dessa modeller.

En banbrytande MIT-studie har avslöjat en kritisk brist i visionsspråkliga modeller (VLM:er) som kan få allvarliga konsekvenser för deras användning inom sjukvård och andra områden med höga krav på säkerhet.

I studien fann MIT-forskarna att VLM:er är mycket benägna att göra misstag i verkliga situationer eftersom de inte förstår negation – ord som "nej" och "inte" som anger vad som är falskt eller saknas. "Dessa negationsord kan ha mycket stor betydelse, och om vi bara använder dessa modeller utan eftertanke kan vi drabbas av katastrofala konsekvenser," säger Kumail Alhamoud, doktorand vid MIT och huvudförfattare till studien.

Forskarna illustrerar problemet med ett medicinskt exempel: Föreställ dig en röntgenläkare som undersöker en lungröntgen och märker att en patient har svullnad i vävnaden men inte har ett förstorad hjärta. I ett sådant scenario skulle visionsspråkliga modeller sannolikt misslyckas med att skilja mellan dessa tillstånd. Om modellen felaktigt identifierar rapporter med båda tillstånden kan det få betydande diagnostiska konsekvenser: en patient med vävnadssvullnad och förstorad hjärta har sannolikt ett hjärtrelaterat tillstånd, men utan förstorad hjärta kan det finnas flera andra bakomliggande orsaker.

När forskarna testade VLM:ers förmåga att identifiera negation i bildtexter fann de att modellerna ofta presterade lika bra som en slumpmässig gissning. Baserat på dessa resultat skapade teamet en datamängd med bilder och tillhörande bildtexter som inkluderar negationsord för att beskriva saknade objekt. De visade att om man tränar om en VLM med denna datamängd förbättras modellens förmåga att hitta bilder som inte innehåller vissa objekt. Det ökar också träffsäkerheten vid flervalsfrågor med negerade bildtexter. Forskarna betonar dock att mer arbete krävs för att komma åt grundorsaken till problemet.

"Det gäller inte bara ord som 'nej' och 'inte'. Oavsett hur man uttrycker negation eller uteslutning, kommer modellerna helt enkelt att ignorera det," säger Alhamoud. Detta var konsekvent för alla VLM:er de testade. Den underliggande orsaken ligger i hur dessa modeller tränas. "Bildtexterna beskriver vad som finns på bilderna – de är positiva etiketter. Och det är faktiskt hela problemet. Ingen tittar på en bild av en hund som hoppar över ett staket och skriver bildtexten 'en hund som hoppar över ett staket, utan helikoptrar'," förklarar seniorförfattaren Marzyeh Ghassemi. Eftersom datamängderna med bild och text inte innehåller exempel på negation, lär sig VLM:er aldrig att identifiera det.

"Om något så grundläggande som negation inte fungerar, borde vi inte använda stora visionsspråkliga modeller på det sätt vi gör idag – utan noggrann utvärdering," säger Ghassemi, docent vid institutionen för elektroteknik och datavetenskap samt medlem av Institute of Medical Engineering Sciences. Forskningen, som kommer att presenteras på Conference on Computer Vision and Pattern Recognition, har genomförts av ett team med forskare från MIT, OpenAI och Oxford University.

Denna upptäckt har stor betydelse för områden med höga krav på säkerhet, såsom övervakning och sjukvård. Forskarteamets arbete, som inkluderar utvecklingen av NegBench – ett omfattande riktmärke för att utvärdera visionsspråkliga modeller på negationsspecifika uppgifter – utgör ett viktigt steg mot robustare AI-system med förmåga till nyanserad språkförståelse, vilket är avgörande för medicinsk diagnostik och semantisk informationssökning.

AI-visionsmodeller missförstår negation – risk för medicinska fel

Latest News

ByteDances Doubao AI erbjuder nu hjälp via videosamtal i realtid

OnePlus överger Alert Slider till förmån för AI-drivna Plus Key

Tyska teknikjättar går samman för EU-stödd AI-gigafabrik

Amerikanska åklagare granskade Builder.ai innan AI-startupen på 1,5 miljarder dollar kollapsade

Norges oljefond gör AI obligatoriskt för all personal

OpenTools.ai lanserar AI-nyhetsnav för teknikproffs

Google utökar AI-datorstyrning till utvecklare via Gemini

Google Förbättrar Gemini-modeller med Transparenta Tankesammanfattningar

AI-visionsmodeller missförstår negation – risk för medicinska fel

Related Articles

OnePlus överger Alert Slider till förmån för AI-drivna Plus Key

Tyska teknikjättar går samman för EU-stödd AI-gigafabrik

Amerikanska åklagare granskade Builder.ai innan AI-startupen på 1,5 miljarder dollar kollapsade

Latest News

ByteDances Doubao AI erbjuder nu hjälp via videosamtal i realtid

OnePlus överger Alert Slider till förmån för AI-drivna Plus Key

Tyska teknikjättar går samman för EU-stödd AI-gigafabrik

Amerikanska åklagare granskade Builder.ai innan AI-startupen på 1,5 miljarder dollar kollapsade

Norges oljefond gör AI obligatoriskt för all personal

OpenTools.ai lanserar AI-nyhetsnav för teknikproffs

Google utökar AI-datorstyrning till utvecklare via Gemini

Google Förbättrar Gemini-modeller med Transparenta Tankesammanfattningar