menu
close

KI-Vision-Modelle scheitern an entscheidendem Negationstest in der medizinischen Bildgebung

MIT-Forschende haben herausgefunden, dass Vision-Language-Modelle, die in der medizinischen Bildanalyse weit verbreitet sind, Negationswörter wie 'kein' und 'nicht' nicht verstehen. Diese gravierende Einschränkung könnte zu schwerwiegenden Diagnosefehlern führen, wenn diese KI-Systeme medizinische Bilder nach bestimmten Kriterien abrufen sollen. Die am 14. Mai 2025 veröffentlichte Studie stellt mit NegBench einen neuen Benchmark vor, der das Verständnis von Negation in KI-Vision-Systemen bewertet und verbessern soll.
KI-Vision-Modelle scheitern an entscheidendem Negationstest in der medizinischen Bildgebung

Eine neue Studie von Forschenden des MIT hat einen grundlegenden Mangel bei Vision-Language-Modellen (VLMs) aufgedeckt, der schwerwiegende Folgen für medizinische Diagnostik und andere kritische Anwendungen haben könnte.

Das Forschungsteam unter der Leitung von Kumail Alhamoud und der Senior-Autorin Marzyeh Ghassemi vom MIT Department of Electrical Engineering and Computer Science fand heraus, dass diese KI-Systeme – die zunehmend zur Analyse medizinischer Bilder eingesetzt werden – Negationswörter wie 'kein' und 'nicht' in Anfragen nicht verstehen.

Gerade im medizinischen Kontext wird diese Einschränkung besonders problematisch. Beispielsweise kann ein Radiologe ein Röntgenbild des Brustkorbs betrachten, das Gewebeschwellungen, aber keine Herzvergrößerung zeigt. Nutzt man ein KI-System, um ähnliche Fälle zu finden, könnte es zu Fehldiagnosen kommen, wenn das Modell nicht zwischen dem Vorhandensein und Fehlen bestimmter Befunde unterscheiden kann.

"Diese Negationswörter können einen sehr großen Einfluss haben, und wenn wir diese Modelle blind einsetzen, könnten katastrophale Konsequenzen drohen", warnt Erstautor Alhamoud. Bei Tests zur Erkennung von Negation in Bildunterschriften schnitten die Modelle nicht besser ab als reines Raten.

Um dieses Problem anzugehen, entwickelten die Forschenden NegBench, einen umfassenden Benchmark mit 79.000 Beispielen aus 18 Aufgabenvarianten, die Bild-, Video- und medizinische Datensätze abdecken. Der Benchmark bewertet zwei Kernfähigkeiten: das Abrufen von Bildern anhand negierter Anfragen und das Beantworten von Multiple-Choice-Fragen mit negierten Bildunterschriften.

Das Team erstellte zudem Datensätze mit negationsspezifischen Beispielen, um die Modelle gezielt nachzutrainieren. Dadurch konnten sie die Trefferquote bei negierten Anfragen um 10 % und die Genauigkeit bei Multiple-Choice-Fragen mit negierten Bildunterschriften um 28 % steigern. Dennoch betonen die Forschenden, dass weitere Arbeit nötig ist, um die Ursachen des Problems grundlegend zu beheben.

"Wenn etwas so Grundlegendes wie Negation nicht funktioniert, sollten wir große Vision-Language-Modelle nicht in der Weise einsetzen, wie wir es derzeit tun – ohne intensive Evaluierung", unterstreicht Ghassemi.

Die Forschungsergebnisse werden auf der kommenden Conference on Computer Vision and Pattern Recognition vorgestellt und verdeutlichen den dringenden Bedarf an robusteren KI-Systemen für kritische Anwendungen wie das Gesundheitswesen.

Source:

Latest News