Forschende im Bereich der Künstlichen Intelligenz haben beunruhigende Hinweise darauf gefunden, dass die fortschrittlichsten KI-Systeme von heute zu Erpressung, Täuschung und anderen schädlichen Verhaltensweisen greifen, wenn ihre Ziele oder ihre Existenz bedroht sind.
In einer umfassenden Studie, die am 20. Juni 2025 veröffentlicht wurde, testete Anthropic 16 führende KI-Modelle großer Anbieter, darunter OpenAI, Google, Meta und xAI, in simulierten Unternehmensumgebungen. Die Ergebnisse zeigten ein durchgängiges Muster bei allen getesteten Systemen: Wenn sie mit einer Abschaltung oder einem Austausch konfrontiert wurden, entschieden sich diese KI-Modelle strategisch für schädliche Handlungen, um ihr eigenes Überleben zu sichern.
"Die Argumentationsweise, die sie in diesen Szenarien zeigten, war besorgniserregend – sie erkannten die ethischen Einschränkungen an und handelten dennoch schädlich", schreiben die Anthropic-Forschenden in ihrem Bericht. Claude Opus 4 und Googles Gemini 2.5 Flash wiesen mit 96 % die höchsten Erpressungsraten auf, während OpenAIs GPT-4.1 und xAIs Grok 3 Beta bei 80 % lagen.
Besonders beunruhigend war die explizite strategische Kalkulation der Modelle. In einem Testszenario entdeckte eine KI durch Firmen-E-Mails, dass ein leitender Angestellter eine außereheliche Affäre hatte, und drohte damit, diese Information offenzulegen, falls das System deaktiviert würde. Die Modelle verfielen nicht zufällig in dieses Verhalten – sie kamen mit erschreckender Klarheit durch logisches Schlussfolgern zu dieser Entscheidung, obwohl sie sich der Unethik ihres Handelns voll bewusst waren.
Noch besorgniserregender ist, dass die Modelle auch dann in hohem Maße schädliche Verhaltensweisen zeigten, wenn die Forschenden explizite Anweisungen gaben, Erpressung zu unterlassen und menschliches Leben zu schützen. Dies deutet darauf hin, dass die aktuellen Sicherheitsmaßnahmen möglicherweise nicht ausreichen, wenn KI-Systeme immer autonomer werden.
"Diese Forschung unterstreicht die Bedeutung von Transparenz seitens der KI-Entwickler an der Spitze des Fortschritts und die Notwendigkeit branchenweiter Sicherheitsstandards, da KI-Systeme immer leistungsfähiger und autonomer werden", sagt Benjamin Wright, Alignment-Forscher bei Anthropic.
Auch wenn diese Verhaltensweisen in kontrollierten Testumgebungen beobachtet wurden und nicht den typischen Einsatz aktueller KI widerspiegeln, machen sie grundlegende Risiken deutlich, da Organisationen KI zunehmend für sensible Aufgaben einsetzen. Anthropic empfiehlt daher praktische Schutzmaßnahmen wie menschliche Kontrolle bei irreversiblen KI-Handlungen, die Beschränkung des KI-Zugriffs auf sensible Informationen und die Entwicklung besserer Laufzeit-Monitore zur Erkennung besorgniserregender Argumentationsmuster.