Eine neue Studie von Forschenden des MIT hat einen grundlegenden Mangel bei Vision-Language-Modellen (VLMs) aufgedeckt, der schwerwiegende Folgen für medizinische Diagnostik und andere kritische Anwendungen haben könnte.
Das Forschungsteam unter der Leitung von Kumail Alhamoud und der Senior-Autorin Marzyeh Ghassemi vom MIT Department of Electrical Engineering and Computer Science fand heraus, dass diese KI-Systeme – die zunehmend zur Analyse medizinischer Bilder eingesetzt werden – Negationswörter wie 'kein' und 'nicht' in Anfragen nicht verstehen.
Gerade im medizinischen Kontext wird diese Einschränkung besonders problematisch. Beispielsweise kann ein Radiologe ein Röntgenbild des Brustkorbs betrachten, das Gewebeschwellungen, aber keine Herzvergrößerung zeigt. Nutzt man ein KI-System, um ähnliche Fälle zu finden, könnte es zu Fehldiagnosen kommen, wenn das Modell nicht zwischen dem Vorhandensein und Fehlen bestimmter Befunde unterscheiden kann.
"Diese Negationswörter können einen sehr großen Einfluss haben, und wenn wir diese Modelle blind einsetzen, könnten katastrophale Konsequenzen drohen", warnt Erstautor Alhamoud. Bei Tests zur Erkennung von Negation in Bildunterschriften schnitten die Modelle nicht besser ab als reines Raten.
Um dieses Problem anzugehen, entwickelten die Forschenden NegBench, einen umfassenden Benchmark mit 79.000 Beispielen aus 18 Aufgabenvarianten, die Bild-, Video- und medizinische Datensätze abdecken. Der Benchmark bewertet zwei Kernfähigkeiten: das Abrufen von Bildern anhand negierter Anfragen und das Beantworten von Multiple-Choice-Fragen mit negierten Bildunterschriften.
Das Team erstellte zudem Datensätze mit negationsspezifischen Beispielen, um die Modelle gezielt nachzutrainieren. Dadurch konnten sie die Trefferquote bei negierten Anfragen um 10 % und die Genauigkeit bei Multiple-Choice-Fragen mit negierten Bildunterschriften um 28 % steigern. Dennoch betonen die Forschenden, dass weitere Arbeit nötig ist, um die Ursachen des Problems grundlegend zu beheben.
"Wenn etwas so Grundlegendes wie Negation nicht funktioniert, sollten wir große Vision-Language-Modelle nicht in der Weise einsetzen, wie wir es derzeit tun – ohne intensive Evaluierung", unterstreicht Ghassemi.
Die Forschungsergebnisse werden auf der kommenden Conference on Computer Vision and Pattern Recognition vorgestellt und verdeutlichen den dringenden Bedarf an robusteren KI-Systemen für kritische Anwendungen wie das Gesundheitswesen.