Eine bahnbrechende Studie des MIT hat einen kritischen Mangel in Vision-Language-Modellen (VLMs) aufgedeckt, der gravierende Folgen für deren Einsatz im Gesundheitswesen und anderen sicherheitskritischen Bereichen haben könnte.
In der Studie stellten MIT-Forschende fest, dass VLMs in realen Situationen äußerst fehleranfällig sind, weil sie Verneinungen – Wörter wie „kein“ und „nicht“, die das Fehlen oder das Gegenteil von etwas ausdrücken – nicht verstehen. „Solche Verneinungen können einen sehr großen Einfluss haben, und wenn wir diese Modelle blind einsetzen, könnten katastrophale Konsequenzen drohen“, sagt Kumail Alhamoud, MIT-Doktorand und Hauptautor der Studie.
Die Forschenden verdeutlichen das Problem an einem medizinischen Beispiel: Eine Radiologin betrachtet ein Röntgenbild des Brustkorbs und stellt fest, dass eine Schwellung im Gewebe vorliegt, das Herz jedoch nicht vergrößert ist. In einem solchen Fall würden Vision-Language-Modelle vermutlich nicht zwischen diesen Zuständen unterscheiden können. Wenn das Modell fälschlicherweise Berichte mit beiden Befunden identifiziert, hätte das erhebliche Auswirkungen auf die Diagnose: Ein Patient mit Gewebeschwellung und vergrößertem Herz leidet wahrscheinlich an einer Herzerkrankung, während ohne vergrößertes Herz ganz andere Ursachen infrage kommen.
Bei Tests zur Erkennung von Verneinungen in Bildunterschriften schnitten die Modelle oft nicht besser ab als ein Zufallsgenerator. Aufbauend auf diesen Erkenntnissen erstellte das Team einen Datensatz mit Bildern und zugehörigen Bildunterschriften, die Verneinungen enthalten und fehlende Objekte beschreiben. Sie konnten zeigen, dass das Nachtrainieren eines Vision-Language-Modells mit diesem Datensatz die Leistung verbessert, wenn das Modell Bilder abrufen soll, auf denen bestimmte Objekte nicht zu sehen sind. Auch die Genauigkeit bei Multiple-Choice-Fragen mit verneinten Bildunterschriften steigt. Die Forschenden betonen jedoch, dass weitere Arbeit nötig ist, um die Ursachen des Problems zu beheben.
„Das betrifft nicht nur Wörter wie ‚kein‘ und ‚nicht‘. Egal, wie man eine Verneinung oder einen Ausschluss formuliert, die Modelle ignorieren sie einfach“, sagt Alhamoud. Dies zeigte sich bei allen getesteten VLMs. Das Grundproblem liegt in der Art und Weise, wie diese Modelle trainiert werden. „Bildunterschriften beschreiben, was auf den Bildern zu sehen ist – sie sind positive Labels. Und genau das ist das Problem. Niemand schaut sich ein Bild von einem Hund an, der über einen Zaun springt, und beschriftet es mit ‚Ein Hund springt über einen Zaun, ohne Hubschrauber‘“, erklärt Seniorautorin Marzyeh Ghassemi. Da Bild-Beschreibungsdatensätze keine Beispiele für Verneinungen enthalten, lernen VLMs nie, diese zu erkennen.
„Wenn etwas so Grundlegendes wie Verneinung nicht funktioniert, sollten wir große Vision-Language-Modelle nicht auf die Weise einsetzen, wie wir es derzeit tun – ohne intensive Überprüfung“, sagt Ghassemi, außerordentliche Professorin am Department of Electrical Engineering and Computer Science und Mitglied des Institute of Medical Engineering Sciences. Die Forschung, die auf der Conference on Computer Vision and Pattern Recognition vorgestellt wird, wurde von einem Team aus MIT, OpenAI und der Universität Oxford durchgeführt.
Diese Erkenntnis hat weitreichende Folgen für sicherheitskritische Bereiche wie Überwachung und Gesundheitswesen. Die Arbeit der Forschenden, einschließlich der Entwicklung von NegBench – einem umfassenden Benchmark zur Bewertung von Vision-Language-Modellen bei Aufgaben mit Verneinungen – stellt einen wichtigen Schritt hin zu robusteren KI-Systemen dar, die eine nuancierte Sprachverarbeitung ermöglichen. Dies ist besonders relevant für medizinische Diagnosen und die semantische Bildersuche.