AI-visionsmodeller misslyckas med kritiskt negationstest inom medicinsk bildanalys

Forskare vid MIT har upptäckt att visionsspråkliga modeller, som används flitigt inom medicinsk bildanalys, inte kan förstå negationsord som 'nej' och 'inte'. Denna avgörande begränsning kan leda till allvarliga diagnostiska fel när AI-systemen används för att hämta medicinska bilder utifrån specifika kriterier. Studien, som publicerades den 14 maj 2025, introducerar NegBench – ett nytt riktmärke för att utvärdera och förbättra förståelsen av negation i AI-bildsystem.

En ny studie från forskare vid MIT har avslöjat en grundläggande brist i visionsspråkliga modeller (VLM:er) som kan få allvarliga konsekvenser för medicinsk diagnostik och andra kritiska tillämpningar.

Forskargruppen, ledd av Kumail Alhamoud och seniorförfattaren Marzyeh Ghassemi från MIT:s institution för elektroteknik och datavetenskap, fann att dessa AI-system – som i allt högre grad används för att analysera medicinska bilder – misslyckas med att förstå negationsord som 'nej' och 'inte' i frågor.

Denna begränsning blir särskilt problematisk i medicinska sammanhang. Till exempel, när en röntgenläkare granskar en lungröntgen som visar vävnadssvullnad utan förstorad hjärta, kan användning av ett AI-system för att hitta liknande fall leda till felaktiga diagnoser om modellen inte kan skilja på förekomst och frånvaro av specifika tillstånd.

"Dessa negationsord kan ha en mycket stor inverkan, och om vi bara använder dessa modeller blint kan vi råka ut för katastrofala konsekvenser", varnar huvudförfattaren Alhamoud. När modellerna testades på sin förmåga att identifiera negation i bildtexter presterade de inte bättre än slumpmässiga gissningar.

För att tackla problemet utvecklade forskarna NegBench, ett omfattande riktmärke med 79 000 exempel över 18 olika uppgiftstyper som täcker bild-, video- och medicinska datamängder. Riktmärket utvärderar två centrala förmågor: att hämta bilder baserat på frågor med negation och att besvara flervalsfrågor med negationsinnehåll i bildtexterna.

Teamet skapade även datamängder med negationsspecifika exempel för att träna om dessa modeller, vilket ledde till en förbättring på 10 % i återkallning vid frågor med negation och en ökning på 28 % i noggrannhet vid flervalsfrågor med negation i bildtexterna. De påpekar dock att mer arbete krävs för att komma åt de grundläggande orsakerna till problemet.

"Om något så grundläggande som negation inte fungerar, borde vi inte använda stora visions-/språkmodeller på många av de sätt vi gör idag – utan noggrann utvärdering", betonar Ghassemi.

Forskningen kommer att presenteras vid den kommande konferensen om datorseende och mönsterigenkänning, och understryker det akuta behovet av mer robusta AI-system för kritiska tillämpningar som sjukvård.

Source:

AI-visionsmodeller misslyckas med kritiskt negationstest inom medicinsk bildanalys

Latest News

ByteDances Doubao AI erbjuder nu hjälp via videosamtal i realtid

OnePlus överger Alert Slider till förmån för AI-drivna Plus Key

Tyska teknikjättar går samman för EU-stödd AI-gigafabrik

Amerikanska åklagare granskade Builder.ai innan AI-startupen på 1,5 miljarder dollar kollapsade

Norges oljefond gör AI obligatoriskt för all personal

OpenTools.ai lanserar AI-nyhetsnav för teknikproffs

Google utökar AI-datorstyrning till utvecklare via Gemini

Google Förbättrar Gemini-modeller med Transparenta Tankesammanfattningar

AI-visionsmodeller misslyckas med kritiskt negationstest inom medicinsk bildanalys

Related Articles

Anthropics Claude 4-modeller sätter ny AI-standard för kodning

Analytiker Bibehåller 'Måttlig Köp'-Rekommendation för CCC Intelligent Solutions

NASA presenterar djärv AI-strategi för nästa decennium av rymdutforskning

OpenAIs före detta forskningschef planerade bunker för post-AGI-värld

Latest News

ByteDances Doubao AI erbjuder nu hjälp via videosamtal i realtid

OnePlus överger Alert Slider till förmån för AI-drivna Plus Key

Tyska teknikjättar går samman för EU-stödd AI-gigafabrik

Amerikanska åklagare granskade Builder.ai innan AI-startupen på 1,5 miljarder dollar kollapsade

Norges oljefond gör AI obligatoriskt för all personal

OpenTools.ai lanserar AI-nyhetsnav för teknikproffs

Google utökar AI-datorstyrning till utvecklare via Gemini

Google Förbättrar Gemini-modeller med Transparenta Tankesammanfattningar