AI-visiemodellen falen cruciale ontkenningstest in medische beeldvorming

Onderzoekers van MIT hebben ontdekt dat visie-taalmodellen, die veel worden gebruikt bij de analyse van medische beelden, niet in staat zijn om ontkenningswoorden zoals 'geen' en 'niet' te begrijpen. Deze belangrijke beperking kan leiden tot ernstige diagnostische fouten wanneer deze AI-systemen worden ingezet om medische beelden op basis van specifieke criteria op te zoeken. De studie, gepubliceerd op 14 mei 2025, introduceert NegBench, een nieuwe benchmark om het begrip van ontkenning in AI-visiesystemen te evalueren en te verbeteren.

Een nieuwe studie van onderzoekers aan het MIT heeft een fundamenteel gebrek blootgelegd in visie-taalmodellen (VLM’s) dat ernstige gevolgen kan hebben voor medische diagnostiek en andere kritieke toepassingen.

Het onderzoeksteam, onder leiding van Kumail Alhamoud en senior auteur Marzyeh Ghassemi van de afdeling Elektrotechniek en Informatica van MIT, ontdekte dat deze AI-systemen—die steeds vaker worden ingezet voor het analyseren van medische beelden—ontkenningswoorden zoals 'geen' en 'niet' in zoekopdrachten niet begrijpen.

Deze beperking wordt vooral problematisch in medische contexten. Zo kan een radioloog die een röntgenfoto van de borstkas bekijkt met zwelling van het weefsel, maar zonder vergroot hart, door een AI-systeem op zoek laten gaan naar vergelijkbare gevallen. Als het model echter het verschil tussen de aanwezigheid en afwezigheid van bepaalde aandoeningen niet kan onderscheiden, kan dit leiden tot foutieve diagnoses.

"Die ontkenningswoorden kunnen een zeer grote impact hebben, en als we deze modellen blindelings gebruiken, kunnen we met catastrofale gevolgen te maken krijgen," waarschuwt hoofdauteur Alhamoud. Toen de modellen werden getest op hun vermogen om ontkenning in beeldbijschriften te herkennen, presteerden ze niet beter dan willekeurig gokken.

Om dit probleem aan te pakken, ontwikkelden de onderzoekers NegBench, een uitgebreide benchmark met 79.000 voorbeelden verdeeld over 18 taakvariaties op het gebied van beeld, video en medische datasets. De benchmark beoordeelt twee kernvaardigheden: het ophalen van beelden op basis van ontkennende zoekopdrachten en het beantwoorden van meerkeuzevragen met ontkennende bijschriften.

Het team stelde ook datasets samen met specifieke voorbeelden van ontkenning om deze modellen opnieuw te trainen. Dit leidde tot een verbetering van 10% in recall op ontkennende zoekopdrachten en een stijging van 28% in nauwkeurigheid bij meerkeuzevragen met ontkennende bijschriften. Ze benadrukken echter dat er meer werk nodig is om de onderliggende oorzaken van dit probleem aan te pakken.

"Als iets fundamenteels als ontkenning niet werkt, zouden we grote visie/taalmodellen niet op de manier moeten gebruiken zoals we dat nu doen—zonder grondige evaluatie," benadrukt Ghassemi.

Het onderzoek wordt gepresenteerd op de komende Conference on Computer Vision and Pattern Recognition en onderstreept de dringende noodzaak voor robuustere AI-systemen in kritieke toepassingen zoals de gezondheidszorg.

Source:

AI-visiemodellen falen cruciale ontkenningstest in medische beeldvorming

Latest News

ByteDance's Doubao AI Biedt Nu Real-Time Video-Assistentie

OnePlus vervangt Alert Slider door AI-aangedreven Plus Key

Duitse Techreuzen Bundelen Krachten voor door EU gesteunde AI-Gigafabriek

Amerikaanse aanklagers onderzochten Builder.ai vóór instorting van AI-startup ter waarde van $1,5 miljard

Noors staatsfonds van $1,8 biljoen maakt AI verplicht voor personeel

OpenTools.ai lanceert AI-nieuwshub voor technologieprofessionals

Google breidt AI-computerbesturing uit naar ontwikkelaars via Gemini

Google Verbetert Gemini-modellen met Transparante Gedachte-samenvattingen

AI-visiemodellen falen cruciale ontkenningstest in medische beeldvorming

Related Articles

Claude 4-modellen van Anthropic vestigen nieuwe AI-codestandaard

Analisten Handhaven 'Matig Kopen'-advies voor CCC Intelligent Solutions

NASA Onthult Gedurfde AI-strategie voor het Volgende Decennium van Ruimteverkenning

Voormalig OpenAI-wetenschapper Plande Bunker voor Post-AGI Wereld

Latest News

ByteDance's Doubao AI Biedt Nu Real-Time Video-Assistentie

OnePlus vervangt Alert Slider door AI-aangedreven Plus Key

Duitse Techreuzen Bundelen Krachten voor door EU gesteunde AI-Gigafabriek

Amerikaanse aanklagers onderzochten Builder.ai vóór instorting van AI-startup ter waarde van $1,5 miljard

Noors staatsfonds van $1,8 biljoen maakt AI verplicht voor personeel

OpenTools.ai lanceert AI-nieuwshub voor technologieprofessionals

Google breidt AI-computerbesturing uit naar ontwikkelaars via Gemini

Google Verbetert Gemini-modellen met Transparante Gedachte-samenvattingen