menu
close

Medische AI-systemen begrijpen ontkenning niet bij beeldanalyse

Onderzoekers van MIT hebben ontdekt dat vision-language modellen die worden gebruikt bij medische beeldvorming, ontkenningswoorden zoals 'geen' en 'niet' niet begrijpen. Dit kan leiden tot gevaarlijke misdiagnoses. Bij testen op taken met ontkenning presteerden deze AI-systemen niet beter dan willekeurig gokken, wat serieuze zorgen oproept over hun inzet in de zorg. De onderzoekers ontwikkelden een nieuwe benchmark, NegBench, en stelden oplossingen voor die het begrip van ontkenning tot wel 28% kunnen verbeteren.
Medische AI-systemen begrijpen ontkenning niet bij beeldanalyse

Een kritisch mankement in kunstmatige intelligentiesystemen die medische beelden analyseren, kan patiënten in gevaar brengen, zo blijkt uit nieuw onderzoek van het MIT dat deze week werd gepubliceerd.

De studie, onder leiding van promovendus Kumail Alhamoud en universitair hoofddocent Marzyeh Ghassemi, laat zien dat vision-language modellen (VLM’s) – AI-systemen die veelvuldig worden ingezet in de zorg – fundamenteel falen in het begrijpen van ontkenningswoorden zoals 'geen' en 'niet' bij het analyseren van medische beelden.

"Die ontkenningswoorden kunnen een zeer grote impact hebben. Als we deze modellen blindelings gebruiken, kunnen dat catastrofale gevolgen hebben," waarschuwt Alhamoud, de hoofdauteur van het onderzoek.

De onderzoekers toonden dit probleem aan met een klinisch voorbeeld: als een radioloog een röntgenfoto van de borstkas bekijkt waarop zwelling van weefsel te zien is, maar geen vergroot hart, kan een AI-systeem ten onrechte gevallen ophalen met beide aandoeningen, wat tot een totaal andere diagnose kan leiden. Bij formele tests presteerden deze AI-modellen op taken met ontkenning niet beter dan willekeurig gokken.

Om deze kritieke beperking aan te pakken, ontwikkelde het team NegBench, een uitgebreid evaluatiekader met 18 taakvariaties en 79.000 voorbeelden uit beeld-, video- en medische datasets. Hun voorgestelde oplossing bestaat uit het opnieuw trainen van VLM’s met speciaal samengestelde datasets met miljoenen ontkennende bijschriften. Dit leverde veelbelovende resultaten op: het terugvinden van ontkennende zoekopdrachten verbeterde met 10% en de nauwkeurigheid op meerkeuzevragen met ontkennende bijschriften steeg met 28%.

"Als iets fundamenteels als ontkenning niet werkt, zouden we grote vision/language modellen niet op de manier moeten gebruiken waarop we dat nu doen – zonder grondige evaluatie," benadrukt Ghassemi, die waarschuwt voor het inzetten van deze systemen in medische omgevingen met hoge risico’s zonder zorgvuldige beoordeling.

Het onderzoek, waaraan ook medewerkers van OpenAI en Oxford University meewerkten, wordt gepresenteerd op de komende Conference on Computer Vision and Pattern Recognition. Het team heeft hun benchmark en code openbaar beschikbaar gesteld om dit belangrijke AI-veiligheidsprobleem aan te pakken.

Source:

Latest News