Een nieuwe studie van onderzoekers aan het MIT heeft een fundamenteel gebrek blootgelegd in visie-taalmodellen (VLM’s) dat ernstige gevolgen kan hebben voor medische diagnostiek en andere kritieke toepassingen.
Het onderzoeksteam, onder leiding van Kumail Alhamoud en senior auteur Marzyeh Ghassemi van de afdeling Elektrotechniek en Informatica van MIT, ontdekte dat deze AI-systemen—die steeds vaker worden ingezet voor het analyseren van medische beelden—ontkenningswoorden zoals 'geen' en 'niet' in zoekopdrachten niet begrijpen.
Deze beperking wordt vooral problematisch in medische contexten. Zo kan een radioloog die een röntgenfoto van de borstkas bekijkt met zwelling van het weefsel, maar zonder vergroot hart, door een AI-systeem op zoek laten gaan naar vergelijkbare gevallen. Als het model echter het verschil tussen de aanwezigheid en afwezigheid van bepaalde aandoeningen niet kan onderscheiden, kan dit leiden tot foutieve diagnoses.
"Die ontkenningswoorden kunnen een zeer grote impact hebben, en als we deze modellen blindelings gebruiken, kunnen we met catastrofale gevolgen te maken krijgen," waarschuwt hoofdauteur Alhamoud. Toen de modellen werden getest op hun vermogen om ontkenning in beeldbijschriften te herkennen, presteerden ze niet beter dan willekeurig gokken.
Om dit probleem aan te pakken, ontwikkelden de onderzoekers NegBench, een uitgebreide benchmark met 79.000 voorbeelden verdeeld over 18 taakvariaties op het gebied van beeld, video en medische datasets. De benchmark beoordeelt twee kernvaardigheden: het ophalen van beelden op basis van ontkennende zoekopdrachten en het beantwoorden van meerkeuzevragen met ontkennende bijschriften.
Het team stelde ook datasets samen met specifieke voorbeelden van ontkenning om deze modellen opnieuw te trainen. Dit leidde tot een verbetering van 10% in recall op ontkennende zoekopdrachten en een stijging van 28% in nauwkeurigheid bij meerkeuzevragen met ontkennende bijschriften. Ze benadrukken echter dat er meer werk nodig is om de onderliggende oorzaken van dit probleem aan te pakken.
"Als iets fundamenteels als ontkenning niet werkt, zouden we grote visie/taalmodellen niet op de manier moeten gebruiken zoals we dat nu doen—zonder grondige evaluatie," benadrukt Ghassemi.
Het onderzoek wordt gepresenteerd op de komende Conference on Computer Vision and Pattern Recognition en onderstreept de dringende noodzaak voor robuustere AI-systemen in kritieke toepassingen zoals de gezondheidszorg.