menu
close

AI-visionsmodeller forstår ikke negation – kan føre til medicinske fejl

Forskere fra MIT har opdaget, at vision-sprog-modeller (VLM’er) ikke forstår negationsord som 'nej' og 'ikke', og klarer sig ikke bedre end tilfældige gæt i test. Denne grundlæggende svaghed kan føre til alvorlige diagnosefejl i sundhedsvæsenet, hvor det er afgørende at skelne mellem tilstedeværende og fraværende tilstande. Forskerholdet, ledet af Kumail Alhamoud og Marzyeh Ghassemi, har udviklet et benchmark kaldet NegBench til at evaluere og forbedre disse modeller.
AI-visionsmodeller forstår ikke negation – kan føre til medicinske fejl

Et banebrydende studie fra MIT har afsløret en kritisk svaghed i vision-sprog-modeller (VLM’er), som kan få alvorlige konsekvenser for deres anvendelse i sundhedssektoren og andre områder, hvor der ikke er plads til fejl.

I studiet fandt MIT-forskerne ud af, at VLM’er er meget tilbøjelige til at begå fejl i virkelige situationer, fordi de ikke forstår negation – ord som "nej" og "ikke", der angiver, hvad der er falsk eller fraværende. "Disse negationsord kan have en meget stor betydning, og hvis vi bare bruger disse modeller blindt, kan det føre til katastrofale konsekvenser," siger Kumail Alhamoud, ph.d.-studerende ved MIT og hovedforfatter på studiet.

Forskerne illustrerer problemet med et medicinsk eksempel: Forestil dig en radiolog, der undersøger et røntgenbillede af brystkassen og bemærker, at en patient har hævelse i vævet, men ikke har et forstørret hjerte. I sådan et scenarie vil vision-sprog-modeller sandsynligvis ikke kunne skelne mellem disse tilstande. Hvis modellen fejlagtigt identificerer rapporter med begge tilstande, kan det få store diagnostiske konsekvenser: En patient med både vævshævelse og forstørret hjerte har sandsynligvis en hjertesygdom, men uden forstørret hjerte kan der være flere forskellige underliggende årsager.

Da forskerne testede VLM’ernes evne til at identificere negation i billedtekster, viste det sig, at modellerne ofte klarede sig lige så godt som tilfældige gæt. På baggrund af disse resultater skabte teamet et datasæt med billeder og tilhørende billedtekster, der indeholder negationsord, som beskriver manglende objekter. De viste, at gen-træning af en vision-sprog-model med dette datasæt fører til bedre resultater, når modellen skal finde billeder, der ikke indeholder bestemte objekter. Det øger også nøjagtigheden ved multiple choice-spørgsmål med negation i billedteksten. Forskerne understreger dog, at der stadig er behov for mere arbejde for at løse de grundlæggende årsager til problemet.

"Det gælder ikke kun for ord som 'nej' og 'ikke'. Uanset hvordan du udtrykker negation eller udelukkelse, ignorerer modellerne det bare," siger Alhamoud. Dette var konsistent på tværs af alle de VLM’er, de testede. Det underliggende problem stammer fra, hvordan disse modeller bliver trænet. "Billedtekster udtrykker, hvad der er på billederne – de er positive mærkater. Og det er faktisk hele problemet. Ingen ser på et billede af en hund, der hopper over et hegn, og laver en billedtekst, der siger 'en hund hopper over et hegn, uden helikoptere'," forklarer seniorforfatter Marzyeh Ghassemi. Fordi billed-tekst-datasæt ikke indeholder eksempler på negation, lærer VLM’er aldrig at identificere det.

"Hvis noget så grundlæggende som negation ikke fungerer, bør vi ikke bruge store vision/sprog-modeller på mange af de måder, vi gør nu – uden grundig evaluering," siger Ghassemi, lektor ved Institut for Elektroteknik og Datavidenskab og medlem af Institute of Medical Engineering Sciences. Forskningen, der præsenteres på Conference on Computer Vision and Pattern Recognition, er udført af et hold med forskere fra MIT, OpenAI og Oxford University.

Denne opdagelse har stor betydning for områder med høje krav til sikkerhed, såsom overvågning og sundhedsvæsen. Forskergruppens arbejde, som omfatter udviklingen af NegBench – et omfattende benchmark til at evaluere vision-sprog-modeller på negationsspecifikke opgaver – markerer et vigtigt skridt mod mere robuste AI-systemer med nuanceret sprogforståelse, hvilket er afgørende for medicinsk diagnostik og semantisk indholdssøgning.

Source: Mit

Latest News