menu
close

AI-visionsmodeller misslyckas med kritiskt negationstest inom medicinsk bildanalys

Forskare vid MIT har upptäckt att visionsspråkliga modeller, som används flitigt inom medicinsk bildanalys, inte kan förstå negationsord som 'nej' och 'inte'. Denna avgörande begränsning kan leda till allvarliga diagnostiska fel när AI-systemen används för att hämta medicinska bilder utifrån specifika kriterier. Studien, som publicerades den 14 maj 2025, introducerar NegBench – ett nytt riktmärke för att utvärdera och förbättra förståelsen av negation i AI-bildsystem.
AI-visionsmodeller misslyckas med kritiskt negationstest inom medicinsk bildanalys

En ny studie från forskare vid MIT har avslöjat en grundläggande brist i visionsspråkliga modeller (VLM:er) som kan få allvarliga konsekvenser för medicinsk diagnostik och andra kritiska tillämpningar.

Forskargruppen, ledd av Kumail Alhamoud och seniorförfattaren Marzyeh Ghassemi från MIT:s institution för elektroteknik och datavetenskap, fann att dessa AI-system – som i allt högre grad används för att analysera medicinska bilder – misslyckas med att förstå negationsord som 'nej' och 'inte' i frågor.

Denna begränsning blir särskilt problematisk i medicinska sammanhang. Till exempel, när en röntgenläkare granskar en lungröntgen som visar vävnadssvullnad utan förstorad hjärta, kan användning av ett AI-system för att hitta liknande fall leda till felaktiga diagnoser om modellen inte kan skilja på förekomst och frånvaro av specifika tillstånd.

"Dessa negationsord kan ha en mycket stor inverkan, och om vi bara använder dessa modeller blint kan vi råka ut för katastrofala konsekvenser", varnar huvudförfattaren Alhamoud. När modellerna testades på sin förmåga att identifiera negation i bildtexter presterade de inte bättre än slumpmässiga gissningar.

För att tackla problemet utvecklade forskarna NegBench, ett omfattande riktmärke med 79 000 exempel över 18 olika uppgiftstyper som täcker bild-, video- och medicinska datamängder. Riktmärket utvärderar två centrala förmågor: att hämta bilder baserat på frågor med negation och att besvara flervalsfrågor med negationsinnehåll i bildtexterna.

Teamet skapade även datamängder med negationsspecifika exempel för att träna om dessa modeller, vilket ledde till en förbättring på 10 % i återkallning vid frågor med negation och en ökning på 28 % i noggrannhet vid flervalsfrågor med negation i bildtexterna. De påpekar dock att mer arbete krävs för att komma åt de grundläggande orsakerna till problemet.

"Om något så grundläggande som negation inte fungerar, borde vi inte använda stora visions-/språkmodeller på många av de sätt vi gör idag – utan noggrann utvärdering", betonar Ghassemi.

Forskningen kommer att presenteras vid den kommande konferensen om datorseende och mönsterigenkänning, och understryker det akuta behovet av mer robusta AI-system för kritiska tillämpningar som sjukvård.

Source:

Latest News