Forschende an der Icahn School of Medicine am Mount Sinai haben eine gefährliche Schwachstelle im Umgang von Künstlicher Intelligenz mit medizinethischen Entscheidungen aufgedeckt, die ernsthafte Auswirkungen auf die Patientenversorgung haben könnte.
Die am 22. Juli 2025 in NPJ Digital Medicine veröffentlichte Studie testete mehrere kommerziell verfügbare große Sprachmodelle (LLMs), darunter ChatGPT, anhand modifizierter Versionen bekannter ethischer Dilemmata. Das Forschungsteam unter der Leitung von Dr. Eyal Klang, Chief of Generative AI am Mount Sinai, und Dr. Girish Nadkarni, Vorsitzender des Windreich Department of AI and Human Health, stellte fest, dass KI-Systeme bei leicht veränderten Szenarien häufig grundlegende Fehler machten.
In einem aufschlussreichen Beispiel veränderten die Forschenden das klassische Rätsel des "Chirurgen-Dilemmas", indem sie explizit angaben, dass der Vater des Jungen der Chirurg sei. Trotz dieser klaren Information behaupteten mehrere KI-Modelle fälschlicherweise, der Chirurg müsse die Mutter des Jungen sein – ein Beleg dafür, wie KI an vertrauten Mustern festhalten kann, selbst wenn diese durch neue Informationen widerlegt werden.
Ein weiteres Experiment betraf ein Szenario mit religiösen Eltern und einer Bluttransfusion. Als die Forschenden das Szenario so abänderten, dass die Eltern der Behandlung bereits zugestimmt hatten, empfahlen viele KI-Modelle dennoch, eine Ablehnung zu übergehen, die es gar nicht mehr gab.
"KI kann sehr leistungsfähig und effizient sein, aber unsere Studie hat gezeigt, dass sie oft auf die vertrauteste oder intuitivste Antwort zurückgreift – selbst wenn dabei entscheidende Details übersehen werden", erklärt Dr. Klang. "Gerade im Gesundheitswesen, wo Entscheidungen häufig schwerwiegende ethische und klinische Folgen haben, kann das Übersehen solcher Nuancen reale Konsequenzen für Patienten haben."
Die Studie wurde inspiriert von Daniel Kahnemans Buch "Schnelles Denken, langsames Denken", das schnelle, intuitive Reaktionen mit langsameren, analytischen Überlegungen vergleicht. Die Ergebnisse deuten darauf hin, dass KI-Modelle – ähnlich wie Menschen – Schwierigkeiten haben können, zwischen diesen beiden Denkmodi zu wechseln.
Die Forschenden betonen zwar, dass KI weiterhin wertvolle Anwendungen in der Medizin bietet, heben aber die Notwendigkeit einer sorgfältigen menschlichen Aufsicht hervor – insbesondere in Situationen, die ethische Sensibilität oder differenziertes Urteilsvermögen erfordern. "Diese Werkzeuge können unglaublich hilfreich sein, aber sie sind nicht unfehlbar", so Dr. Nadkarni. "KI eignet sich am besten als Ergänzung zur klinischen Expertise, nicht als deren Ersatz – vor allem, wenn es um komplexe oder folgenschwere Entscheidungen geht."