KI-Vision-Modelle scheitern an Verneinungen und gefährden medizinische Diagnosen

Forschende am MIT haben herausgefunden, dass Vision-Language-Modelle (VLMs) Verneinungen wie „kein“ und „nicht“ nicht verstehen und bei Tests nicht besser abschneiden als Zufallstreffer. Dieser grundlegende Mangel könnte zu schwerwiegenden Diagnosefehlern im Gesundheitswesen führen, wo das Unterscheiden zwischen vorhandenen und nicht vorhandenen Befunden entscheidend ist. Das Forschungsteam unter Leitung von Kumail Alhamoud und Marzyeh Ghassemi hat mit NegBench einen Benchmark entwickelt, um diese Modelle gezielt zu bewerten und zu verbessern.

Eine bahnbrechende Studie des MIT hat einen kritischen Mangel in Vision-Language-Modellen (VLMs) aufgedeckt, der gravierende Folgen für deren Einsatz im Gesundheitswesen und anderen sicherheitskritischen Bereichen haben könnte.

In der Studie stellten MIT-Forschende fest, dass VLMs in realen Situationen äußerst fehleranfällig sind, weil sie Verneinungen – Wörter wie „kein“ und „nicht“, die das Fehlen oder das Gegenteil von etwas ausdrücken – nicht verstehen. „Solche Verneinungen können einen sehr großen Einfluss haben, und wenn wir diese Modelle blind einsetzen, könnten katastrophale Konsequenzen drohen“, sagt Kumail Alhamoud, MIT-Doktorand und Hauptautor der Studie.

Die Forschenden verdeutlichen das Problem an einem medizinischen Beispiel: Eine Radiologin betrachtet ein Röntgenbild des Brustkorbs und stellt fest, dass eine Schwellung im Gewebe vorliegt, das Herz jedoch nicht vergrößert ist. In einem solchen Fall würden Vision-Language-Modelle vermutlich nicht zwischen diesen Zuständen unterscheiden können. Wenn das Modell fälschlicherweise Berichte mit beiden Befunden identifiziert, hätte das erhebliche Auswirkungen auf die Diagnose: Ein Patient mit Gewebeschwellung und vergrößertem Herz leidet wahrscheinlich an einer Herzerkrankung, während ohne vergrößertes Herz ganz andere Ursachen infrage kommen.

Bei Tests zur Erkennung von Verneinungen in Bildunterschriften schnitten die Modelle oft nicht besser ab als ein Zufallsgenerator. Aufbauend auf diesen Erkenntnissen erstellte das Team einen Datensatz mit Bildern und zugehörigen Bildunterschriften, die Verneinungen enthalten und fehlende Objekte beschreiben. Sie konnten zeigen, dass das Nachtrainieren eines Vision-Language-Modells mit diesem Datensatz die Leistung verbessert, wenn das Modell Bilder abrufen soll, auf denen bestimmte Objekte nicht zu sehen sind. Auch die Genauigkeit bei Multiple-Choice-Fragen mit verneinten Bildunterschriften steigt. Die Forschenden betonen jedoch, dass weitere Arbeit nötig ist, um die Ursachen des Problems zu beheben.

„Das betrifft nicht nur Wörter wie ‚kein‘ und ‚nicht‘. Egal, wie man eine Verneinung oder einen Ausschluss formuliert, die Modelle ignorieren sie einfach“, sagt Alhamoud. Dies zeigte sich bei allen getesteten VLMs. Das Grundproblem liegt in der Art und Weise, wie diese Modelle trainiert werden. „Bildunterschriften beschreiben, was auf den Bildern zu sehen ist – sie sind positive Labels. Und genau das ist das Problem. Niemand schaut sich ein Bild von einem Hund an, der über einen Zaun springt, und beschriftet es mit ‚Ein Hund springt über einen Zaun, ohne Hubschrauber‘“, erklärt Seniorautorin Marzyeh Ghassemi. Da Bild-Beschreibungsdatensätze keine Beispiele für Verneinungen enthalten, lernen VLMs nie, diese zu erkennen.

„Wenn etwas so Grundlegendes wie Verneinung nicht funktioniert, sollten wir große Vision-Language-Modelle nicht auf die Weise einsetzen, wie wir es derzeit tun – ohne intensive Überprüfung“, sagt Ghassemi, außerordentliche Professorin am Department of Electrical Engineering and Computer Science und Mitglied des Institute of Medical Engineering Sciences. Die Forschung, die auf der Conference on Computer Vision and Pattern Recognition vorgestellt wird, wurde von einem Team aus MIT, OpenAI und der Universität Oxford durchgeführt.

Diese Erkenntnis hat weitreichende Folgen für sicherheitskritische Bereiche wie Überwachung und Gesundheitswesen. Die Arbeit der Forschenden, einschließlich der Entwicklung von NegBench – einem umfassenden Benchmark zur Bewertung von Vision-Language-Modellen bei Aufgaben mit Verneinungen – stellt einen wichtigen Schritt hin zu robusteren KI-Systemen dar, die eine nuancierte Sprachverarbeitung ermöglichen. Dies ist besonders relevant für medizinische Diagnosen und die semantische Bildersuche.

KI-Vision-Modelle scheitern an Verneinungen und gefährden medizinische Diagnosen

Latest News

ByteDances Doubao-AI bietet jetzt Echtzeit-Video-Unterstützung

OnePlus ersetzt Alert Slider durch KI-gesteuerte Plus-Taste

Deutsche Technologiekonzerne vereinen sich für EU-unterstützte KI-Gigafabrik

US-Staatsanwälte untersuchten Builder.ai vor Zusammenbruch des 1,5-Milliarden-Dollar-AI-Startups

Norwegens 1,8-Billionen-Dollar-Fonds macht KI für Mitarbeitende zur Pflicht

OpenTools.ai stellt AI News Hub für Technologie-Profis vor

Google erweitert KI-Computersteuerung für Entwickler über Gemini

Google verbessert Gemini-Modelle mit transparenten Gedankenzusammenfassungen

KI-Vision-Modelle scheitern an Verneinungen und gefährden medizinische Diagnosen

Related Articles

OnePlus ersetzt Alert Slider durch KI-gesteuerte Plus-Taste

Deutsche Technologiekonzerne vereinen sich für EU-unterstützte KI-Gigafabrik

US-Staatsanwälte untersuchten Builder.ai vor Zusammenbruch des 1,5-Milliarden-Dollar-AI-Startups

Latest News

ByteDances Doubao-AI bietet jetzt Echtzeit-Video-Unterstützung

OnePlus ersetzt Alert Slider durch KI-gesteuerte Plus-Taste

Deutsche Technologiekonzerne vereinen sich für EU-unterstützte KI-Gigafabrik

US-Staatsanwälte untersuchten Builder.ai vor Zusammenbruch des 1,5-Milliarden-Dollar-AI-Startups

Norwegens 1,8-Billionen-Dollar-Fonds macht KI für Mitarbeitende zur Pflicht

OpenTools.ai stellt AI News Hub für Technologie-Profis vor

Google erweitert KI-Computersteuerung für Entwickler über Gemini

Google verbessert Gemini-Modelle mit transparenten Gedankenzusammenfassungen