menu
close

Medizinische KI-Systeme scheitern am Verständnis von Verneinungen in der Bildanalyse

MIT-Forschende haben herausgefunden, dass Vision-Language-Modelle, die in der medizinischen Bildgebung eingesetzt werden, Verneinungswörter wie 'kein' und 'nicht' nicht verstehen können. Dies könnte zu gefährlichen Fehldiagnosen führen. Bei Tests zu Verneinungsaufgaben schnitten diese KI-Systeme nicht besser als reines Raten ab, was ernste Bedenken hinsichtlich ihres Einsatzes im Gesundheitswesen aufwirft. Die Forschenden haben einen neuen Benchmark namens NegBench entwickelt und Lösungen vorgeschlagen, die das Verständnis von Verneinungen um bis zu 28 % verbessern könnten.
Medizinische KI-Systeme scheitern am Verständnis von Verneinungen in der Bildanalyse

Ein kritischer Fehler in künstlichen Intelligenzsystemen, die zur Analyse medizinischer Bilder eingesetzt werden, könnte laut neuer Forschung des MIT Patientinnen und Patienten gefährden.

Die Studie, geleitet von Doktorand Kumail Alhamoud und Associate Professor Marzyeh Ghassemi, zeigt, dass Vision-Language-Modelle (VLMs) – KI-Systeme, die im Gesundheitswesen weit verbreitet sind – grundlegend daran scheitern, Verneinungswörter wie 'kein' und 'nicht' beim Analysieren medizinischer Bilder zu verstehen.

"Diese Verneinungswörter können einen sehr großen Einfluss haben, und wenn wir diese Modelle blind einsetzen, könnten wir katastrophale Folgen erleben", warnt Alhamoud, der Hauptautor der Studie.

Die Forschenden verdeutlichten das Problem anhand eines klinischen Beispiels: Untersucht ein Radiologe ein Röntgenbild des Brustkorbs, das Gewebeschwellungen, aber kein vergrößertes Herz zeigt, könnte ein KI-System fälschlicherweise Fälle mit beiden Befunden heraussuchen – was zu einer völlig anderen Diagnose führen kann. In formalen Tests schnitten diese KI-Modelle bei Verneinungsaufgaben nicht besser ab als reines Raten.

Um diese kritische Einschränkung zu adressieren, hat das Team NegBench entwickelt – ein umfassendes Evaluierungs-Framework mit 18 Aufgabenvarianten und 79.000 Beispielen aus Bild-, Video- und medizinischen Datensätzen. Ihre vorgeschlagene Lösung besteht darin, VLMs mit speziell erstellten Datensätzen zu trainieren, die Millionen von verneinten Bildunterschriften enthalten. Dies zeigte vielversprechende Ergebnisse: Die Trefferquote bei verneinten Anfragen stieg um 10 %, und die Genauigkeit bei Multiple-Choice-Fragen mit verneinten Bildunterschriften verbesserte sich um 28 %.

"Wenn etwas so Grundlegendes wie Verneinung nicht funktioniert, sollten wir große Vision-Language-Modelle nicht in der Weise einsetzen, wie wir es derzeit tun – ohne intensive Evaluierung", mahnt Ghassemi und betont die Notwendigkeit einer sorgfältigen Prüfung, bevor diese Systeme in sicherheitskritischen medizinischen Umgebungen eingesetzt werden.

Die Forschung, an der auch Mitarbeitende von OpenAI und der Universität Oxford beteiligt sind, wird auf der kommenden Conference on Computer Vision and Pattern Recognition vorgestellt. Das Team hat Benchmark und Code öffentlich zugänglich gemacht, um dieses wichtige KI-Sicherheitsproblem anzugehen.

Source:

Latest News