menu
close

AI-visionsmodeller dumper kritisk negationstest i medicinsk billedbehandling

Forskere fra MIT har opdaget, at visionssprogmodeller, der er udbredt i medicinsk billedanalyse, ikke kan forstå negationsord som 'ingen' og 'ikke'. Denne væsentlige begrænsning kan føre til alvorlige diagnostiske fejl, når disse AI-systemer bruges til at finde medicinske billeder ud fra specifikke kriterier. Undersøgelsen, offentliggjort den 14. maj 2025, introducerer NegBench, en ny benchmark til at evaluere og forbedre forståelsen af negation i AI-visionssystemer.
AI-visionsmodeller dumper kritisk negationstest i medicinsk billedbehandling

Et nyt studie fra forskere ved MIT har afsløret en grundlæggende fejl i visionssprogmodeller (VLM'er), som kan få alvorlige konsekvenser for medicinsk diagnostik og andre kritiske anvendelser.

Forskerholdet, ledet af Kumail Alhamoud og seniorforfatter Marzyeh Ghassemi fra MIT's Institut for Elektroteknik og Datalogi, fandt ud af, at disse AI-systemer – som i stigende grad bruges til at analysere medicinske billeder – ikke forstår negationsord som 'ingen' og 'ikke' i forespørgsler.

Denne begrænsning bliver særligt problematisk i medicinske sammenhænge. For eksempel, når en radiolog undersøger et røntgenbillede af brystkassen, der viser vævsopsvulmning uden forstørret hjerte, kan brugen af et AI-system til at finde lignende tilfælde føre til forkerte diagnoser, hvis modellen ikke kan skelne mellem tilstedeværelse og fravær af specifikke tilstande.

"Disse negationsord kan have en meget betydelig indflydelse, og hvis vi blot bruger disse modeller blindt, kan vi ende med katastrofale konsekvenser," advarer hovedforfatter Alhamoud. Da modellerne blev testet på deres evne til at identificere negation i billedtekster, præsterede de ikke bedre end tilfældige gæt.

For at løse dette problem udviklede forskerne NegBench, en omfattende benchmark med 79.000 eksempler fordelt på 18 opgavevariationer, der spænder over billed-, video- og medicinske datasæt. Benchmarket evaluerer to kernekompetencer: at finde billeder baseret på negationsforespørgsler og at besvare multiple choice-spørgsmål med negation i billedtekster.

Holdet skabte også datasæt med negationsspecifikke eksempler til at genuddanne disse modeller, hvilket gav en forbedring på 10 % i recall på negationsforespørgsler og en stigning på 28 % i nøjagtighed på multiple choice-spørgsmål med negation i billedtekster. De advarer dog om, at der stadig er behov for mere arbejde for at løse de grundlæggende årsager til problemet.

"Hvis noget så fundamentalt som negation ikke fungerer, bør vi ikke bruge store visions-/sprogmodeller på mange af de måder, vi gør nu – uden grundig evaluering," understreger Ghassemi.

Forskningen præsenteres på den kommende konference om Computer Vision and Pattern Recognition og fremhæver det presserende behov for mere robuste AI-systemer i kritiske anvendelser som sundhedssektoren.

Source:

Latest News