En allvarlig brist i artificiella intelligenssystem som används för att analysera medicinska bilder kan utsätta patienter för risk, enligt ny forskning från MIT som publicerades denna vecka.
Studien, ledd av doktorand Kumail Alhamoud och biträdande professor Marzyeh Ghassemi, visar att visionsspråkliga modeller (VLM:er) – AI-system som är vanligt förekommande inom sjukvården – i grunden misslyckas med att förstå negationsord som 'inte' och 'ingen' vid analys av medicinska bilder.
"Dessa negationsord kan ha en mycket stor betydelse, och om vi bara använder dessa modeller utan eftertanke kan det få katastrofala konsekvenser," varnar Alhamoud, studiens huvudförfattare.
Forskarna demonstrerade problemet genom ett kliniskt exempel: om en röntgenläkare granskar en lungröntgen som visar vävnadssvullnad men inget förstorad hjärta, kan ett AI-system felaktigt hämta fall med båda tillstånden, vilket potentiellt kan leda till en helt annan diagnos. När dessa AI-modeller formellt testades på negationsuppgifter presterade de inte bättre än slumpmässiga gissningar.
För att åtgärda denna kritiska begränsning har teamet utvecklat NegBench, ett omfattande utvärderingsramverk med 18 uppgiftsvarianter och 79 000 exempel från bild-, video- och medicinska datamängder. Deras föreslagna lösning innebär att VLM:er tränas om med särskilt skapade datamängder som innehåller miljontals negationsbeskrivningar, vilket har gett lovande resultat – återkallningen på negationsfrågor förbättrades med 10 % och träffsäkerheten på flervalsfrågor med negationsbeskrivningar ökade med 28 %.
"Om något så grundläggande som negation inte fungerar, borde vi inte använda stora visionsspråkliga modeller på det sätt vi gör idag – utan noggrann utvärdering," påpekar Ghassemi och understryker behovet av noggrann granskning innan dessa system används i kritiska medicinska miljöer.
Forskningen, som inkluderar samarbetspartners från OpenAI och Oxford University, kommer att presenteras på den kommande konferensen om datorseende och mönsterigenkänning. Forskargruppen har gjort sitt riktmärke och kod publikt tillgängliga för att bidra till att lösa denna viktiga AI-säkerhetsfråga.