menu
close

AI-visiemodellen begrijpen ontkenning niet en brengen medische veiligheid in gevaar

Onderzoekers van MIT hebben ontdekt dat visie-taalmodellen (VLM's) ontkenningswoorden zoals 'geen' en 'niet' niet begrijpen en bij tests niet beter presteren dan willekeurig gokken. Dit fundamentele gebrek kan leiden tot ernstige diagnostische fouten in de gezondheidszorg, waar het onderscheid tussen aanwezige en afwezige aandoeningen cruciaal is. Het onderzoeksteam, onder leiding van Kumail Alhamoud en Marzyeh Ghassemi, heeft een benchmark genaamd NegBench ontwikkeld om deze modellen te evalueren en te verbeteren.
AI-visiemodellen begrijpen ontkenning niet en brengen medische veiligheid in gevaar

Een baanbrekende studie van MIT heeft een kritisch gebrek blootgelegd in visie-taalmodellen (VLM's), wat grote gevolgen kan hebben voor hun inzet in de gezondheidszorg en andere risicovolle omgevingen.

Uit het onderzoek blijkt dat VLM's in de praktijk zeer waarschijnlijk fouten maken omdat ze geen begrip hebben van ontkenning — woorden als "geen" en "niet" die aangeven wat onwaar of afwezig is. "Die ontkenningswoorden kunnen een zeer grote impact hebben, en als we deze modellen blindelings gebruiken, kunnen we met catastrofale gevolgen te maken krijgen," zegt Kumail Alhamoud, MIT-promovendus en hoofdauteur van het onderzoek.

De onderzoekers illustreren het probleem met een medisch voorbeeld: stel je een radioloog voor die een röntgenfoto van de borstkas bekijkt en opmerkt dat een patiënt zwelling in het weefsel heeft, maar geen vergroot hart. In zo'n scenario zouden visie-taalmodellen waarschijnlijk niet in staat zijn om onderscheid te maken tussen deze aandoeningen. Als het model ten onrechte rapporteert dat beide aandoeningen aanwezig zijn, kunnen de gevolgen voor de diagnose groot zijn: een patiënt met zowel weefselzwelling als een vergroot hart heeft waarschijnlijk een hartaandoening, maar zonder vergroot hart zijn er meerdere mogelijke oorzaken.

Bij het testen van het vermogen van visie-taalmodellen om ontkenning in beeldbijschriften te herkennen, ontdekten de onderzoekers dat de modellen vaak niet beter presteerden dan willekeurig gokken. Op basis van deze bevindingen stelde het team een dataset samen met beelden en bijbehorende bijschriften waarin ontkenningswoorden voorkomen die afwezige objecten beschrijven. Ze toonden aan dat het hertrainen van een visie-taalmodel met deze dataset leidt tot betere prestaties wanneer het model wordt gevraagd om beelden op te halen die bepaalde objecten niet bevatten. Ook verbetert de nauwkeurigheid bij meerkeuzevragen met ontkennende bijschriften. De onderzoekers waarschuwen echter dat er meer werk nodig is om de onderliggende oorzaken van dit probleem aan te pakken.

"Dit gebeurt niet alleen bij woorden als 'geen' en 'niet'. Ongeacht hoe je ontkenning of uitsluiting uitdrukt, de modellen negeren het gewoon," aldus Alhamoud. Dit was consistent bij elk getest VLM. Het onderliggende probleem komt voort uit de manier waarop deze modellen worden getraind. "De bijschriften geven weer wat er op de beelden te zien is — ze zijn een positieve label. En dat is eigenlijk het hele probleem. Niemand kijkt naar een foto van een hond die over een hek springt en schrijft erbij: 'een hond springt over een hek, zonder helikopters'," legt senior auteur Marzyeh Ghassemi uit. Omdat datasets met beeld-bijschriften geen voorbeelden van ontkenning bevatten, leren VLM's dit nooit te herkennen.

"Als iets zo fundamenteels als ontkenning niet werkt, zouden we grote visie/taalmodellen niet op de huidige manier moeten inzetten — zonder grondige evaluatie," zegt Ghassemi, universitair hoofddocent aan de afdeling Elektrotechniek en Informatica en lid van het Institute of Medical Engineering Sciences. Het onderzoek, dat wordt gepresenteerd op de Conference on Computer Vision and Pattern Recognition, is uitgevoerd door een team met onderzoekers van MIT, OpenAI en Oxford University.

Deze bevinding heeft grote gevolgen voor risicovolle domeinen zoals veiligheidstoezicht en gezondheidszorg. Het werk van de onderzoekers, waaronder de ontwikkeling van NegBench — een uitgebreide benchmark voor het evalueren van visie-taalmodellen op taken met ontkenning — is een belangrijke stap richting robuustere AI-systemen met een genuanceerder taalbegrip, met kritieke implicaties voor medische diagnostiek en semantisch inhoudsherstel.

Source: Mit

Latest News