menu
close

Medicinske AI-systemer forstår ikke negation i billedanalyse

Forskere fra MIT har opdaget, at vision-language-modeller anvendt i medicinsk billeddiagnostik ikke kan forstå negationsord som 'ingen' og 'ikke', hvilket potentielt kan føre til farlige fejldiagnoser. Når disse AI-systemer blev testet på negationsopgaver, klarede de sig ikke bedre end tilfældige gæt, hvilket vækker alvorlig bekymring om deres brug i sundhedsvæsenet. Forskerne har udviklet en ny benchmark kaldet NegBench og foreslået løsninger, der kan forbedre forståelsen af negation med op til 28%.
Medicinske AI-systemer forstår ikke negation i billedanalyse

En kritisk fejl i kunstig intelligens-systemer, der bruges til at analysere medicinske billeder, kan bringe patienter i fare, ifølge ny forskning fra MIT offentliggjort i denne uge.

Studiet, ledet af ph.d.-studerende Kumail Alhamoud og lektor Marzyeh Ghassemi, afslører, at vision-language-modeller (VLM'er) – AI-systemer, der er udbredt i sundhedssektoren – grundlæggende ikke forstår negationsord som 'ingen' og 'ikke', når de analyserer medicinske billeder.

"Disse negationsord kan have meget stor betydning, og hvis vi bare bruger disse modeller blindt, kan det få katastrofale konsekvenser," advarer Alhamoud, studiets hovedforfatter.

Forskerne demonstrerede problemet gennem et klinisk eksempel: Hvis en radiolog undersøger et røntgenbillede af brystkassen, der viser vævsopsvulmning, men intet forstørret hjerte, kan et AI-system fejlagtigt hente sager med begge tilstande og dermed føre til en helt anden diagnose. Ved formel testning klarede disse AI-modeller sig ikke bedre end tilfældige gæt på negationsopgaver.

For at imødegå denne kritiske begrænsning har teamet udviklet NegBench, en omfattende evalueringsramme med 18 opgavevariationer og 79.000 eksempler på tværs af billed-, video- og medicinske datasæt. Deres foreslåede løsning indebærer at genoptræne VLM'er med specialskabte datasæt, der indeholder millioner af negationsbaserede billedtekster, hvilket har vist lovende resultater – recall på negationsforespørgsler blev forbedret med 10 %, og nøjagtigheden på multiple choice-spørgsmål med negationsbilleder steg med 28 %.

"Hvis noget så fundamentalt som negation ikke fungerer, bør vi ikke bruge store vision/language-modeller på mange af de måder, vi gør nu – uden grundig evaluering," advarer Ghassemi og understreger behovet for omhyggelig vurdering, før disse systemer implementeres i kritiske medicinske miljøer.

Forskningen, som også involverer samarbejdspartnere fra OpenAI og Oxford University, vil blive præsenteret på den kommende konference om Computer Vision and Pattern Recognition. Teamet har gjort deres benchmark og kode offentligt tilgængelig for at bidrage til at løse dette vigtige AI-sikkerhedsproblem.

Source:

Latest News