menu
close

Medicinska AI-system misslyckas med att förstå negation vid bildanalys

Forskare vid MIT har upptäckt att visionsspråkliga modeller som används inom medicinsk bilddiagnostik inte kan förstå negationsord som 'inte' och 'ingen', vilket potentiellt kan leda till farliga feldiagnoser. När dessa AI-system testades på negationsuppgifter presterade de inte bättre än slumpen, vilket väcker allvarliga farhågor kring deras användning inom vården. Forskarna har utvecklat ett nytt riktmärke, NegBench, och föreslagit lösningar som kan förbättra förståelsen av negation med upp till 28%.
Medicinska AI-system misslyckas med att förstå negation vid bildanalys

En allvarlig brist i artificiella intelligenssystem som används för att analysera medicinska bilder kan utsätta patienter för risk, enligt ny forskning från MIT som publicerades denna vecka.

Studien, ledd av doktorand Kumail Alhamoud och biträdande professor Marzyeh Ghassemi, visar att visionsspråkliga modeller (VLM:er) – AI-system som är vanligt förekommande inom sjukvården – i grunden misslyckas med att förstå negationsord som 'inte' och 'ingen' vid analys av medicinska bilder.

"Dessa negationsord kan ha en mycket stor betydelse, och om vi bara använder dessa modeller utan eftertanke kan det få katastrofala konsekvenser," varnar Alhamoud, studiens huvudförfattare.

Forskarna demonstrerade problemet genom ett kliniskt exempel: om en röntgenläkare granskar en lungröntgen som visar vävnadssvullnad men inget förstorad hjärta, kan ett AI-system felaktigt hämta fall med båda tillstånden, vilket potentiellt kan leda till en helt annan diagnos. När dessa AI-modeller formellt testades på negationsuppgifter presterade de inte bättre än slumpmässiga gissningar.

För att åtgärda denna kritiska begränsning har teamet utvecklat NegBench, ett omfattande utvärderingsramverk med 18 uppgiftsvarianter och 79 000 exempel från bild-, video- och medicinska datamängder. Deras föreslagna lösning innebär att VLM:er tränas om med särskilt skapade datamängder som innehåller miljontals negationsbeskrivningar, vilket har gett lovande resultat – återkallningen på negationsfrågor förbättrades med 10 % och träffsäkerheten på flervalsfrågor med negationsbeskrivningar ökade med 28 %.

"Om något så grundläggande som negation inte fungerar, borde vi inte använda stora visionsspråkliga modeller på det sätt vi gör idag – utan noggrann utvärdering," påpekar Ghassemi och understryker behovet av noggrann granskning innan dessa system används i kritiska medicinska miljöer.

Forskningen, som inkluderar samarbetspartners från OpenAI och Oxford University, kommer att presenteras på den kommande konferensen om datorseende och mönsterigenkänning. Forskargruppen har gjort sitt riktmärke och kod publikt tillgängliga för att bidra till att lösa denna viktiga AI-säkerhetsfråga.

Source:

Latest News