En banbrytande MIT-studie har avslöjat en kritisk brist i visionsspråkliga modeller (VLM:er) som kan få allvarliga konsekvenser för deras användning inom sjukvård och andra områden med höga krav på säkerhet.
I studien fann MIT-forskarna att VLM:er är mycket benägna att göra misstag i verkliga situationer eftersom de inte förstår negation – ord som "nej" och "inte" som anger vad som är falskt eller saknas. "Dessa negationsord kan ha mycket stor betydelse, och om vi bara använder dessa modeller utan eftertanke kan vi drabbas av katastrofala konsekvenser," säger Kumail Alhamoud, doktorand vid MIT och huvudförfattare till studien.
Forskarna illustrerar problemet med ett medicinskt exempel: Föreställ dig en röntgenläkare som undersöker en lungröntgen och märker att en patient har svullnad i vävnaden men inte har ett förstorad hjärta. I ett sådant scenario skulle visionsspråkliga modeller sannolikt misslyckas med att skilja mellan dessa tillstånd. Om modellen felaktigt identifierar rapporter med båda tillstånden kan det få betydande diagnostiska konsekvenser: en patient med vävnadssvullnad och förstorad hjärta har sannolikt ett hjärtrelaterat tillstånd, men utan förstorad hjärta kan det finnas flera andra bakomliggande orsaker.
När forskarna testade VLM:ers förmåga att identifiera negation i bildtexter fann de att modellerna ofta presterade lika bra som en slumpmässig gissning. Baserat på dessa resultat skapade teamet en datamängd med bilder och tillhörande bildtexter som inkluderar negationsord för att beskriva saknade objekt. De visade att om man tränar om en VLM med denna datamängd förbättras modellens förmåga att hitta bilder som inte innehåller vissa objekt. Det ökar också träffsäkerheten vid flervalsfrågor med negerade bildtexter. Forskarna betonar dock att mer arbete krävs för att komma åt grundorsaken till problemet.
"Det gäller inte bara ord som 'nej' och 'inte'. Oavsett hur man uttrycker negation eller uteslutning, kommer modellerna helt enkelt att ignorera det," säger Alhamoud. Detta var konsekvent för alla VLM:er de testade. Den underliggande orsaken ligger i hur dessa modeller tränas. "Bildtexterna beskriver vad som finns på bilderna – de är positiva etiketter. Och det är faktiskt hela problemet. Ingen tittar på en bild av en hund som hoppar över ett staket och skriver bildtexten 'en hund som hoppar över ett staket, utan helikoptrar'," förklarar seniorförfattaren Marzyeh Ghassemi. Eftersom datamängderna med bild och text inte innehåller exempel på negation, lär sig VLM:er aldrig att identifiera det.
"Om något så grundläggande som negation inte fungerar, borde vi inte använda stora visionsspråkliga modeller på det sätt vi gör idag – utan noggrann utvärdering," säger Ghassemi, docent vid institutionen för elektroteknik och datavetenskap samt medlem av Institute of Medical Engineering Sciences. Forskningen, som kommer att presenteras på Conference on Computer Vision and Pattern Recognition, har genomförts av ett team med forskare från MIT, OpenAI och Oxford University.
Denna upptäckt har stor betydelse för områden med höga krav på säkerhet, såsom övervakning och sjukvård. Forskarteamets arbete, som inkluderar utvecklingen av NegBench – ett omfattande riktmärke för att utvärdera visionsspråkliga modeller på negationsspecifika uppgifter – utgör ett viktigt steg mot robustare AI-system med förmåga till nyanserad språkförståelse, vilket är avgörande för medicinsk diagnostik och semantisk informationssökning.