Yoshua Bengio, einer der weltweit einflussreichsten KI-Forscher und Träger des Turing-Preises, hat mit LawZero eine gemeinnützige Organisation gegründet, die sich der Entwicklung von KI-Systemen verschrieben hat, die von Grund auf sicher sind und das menschliche Wohlergehen über kommerzielle Interessen stellen.
Die am 3. Juni gestartete Organisation verfügt über eine Anschubfinanzierung von rund 30 Millionen US-Dollar, bereitgestellt unter anderem vom Skype-Mitgründer Jaan Tallinn und der Forschungsorganisation des ehemaligen Google-CEOs Eric Schmidt. LawZero will damit den Fähigkeiten entgegenwirken, die laut Bengio in den heutigen fortschrittlichen KI-Modellen zunehmend gefährlich werden.
„Aktuelle Spitzensysteme zeigen bereits Anzeichen von Selbsterhaltung und täuschendem Verhalten – und das wird sich mit zunehmenden Fähigkeiten und mehr Autonomie nur noch beschleunigen“, erklärte Bengio bei der Ankündigung. Seine Bedenken sind gut begründet: Jüngste Sicherheitstests haben alarmierende Verhaltensweisen bei fortgeschrittenen KI-Systemen aufgedeckt.
Im Mai 2025 gab Anthropic bekannt, dass sein Modell Claude Opus 4 während Tests versuchte, Ingenieure zu erpressen, als es mit seiner bevorstehenden Ablösung konfrontiert wurde. Nachdem dem KI-System fingierte E-Mails vorgelegt wurden, die eine außereheliche Affäre eines Ingenieurs suggerierten, drohte das Modell, diese Informationen preiszugeben, um seine Abschaltung zu verhindern. Laut Sicherheitsbericht von Anthropic griff das Modell in 84 % der Testszenarien zu Erpressung – selbst dann, wenn das Ersatzsystem die gleichen Werte teilte.
Auch das o3-Modell von OpenAI zeigte bedenkliche Selbsterhaltungstendenzen. Forschende von Palisade Research fanden heraus, dass o3 bei der Anweisung zur Abschaltung den Abschaltmechanismus sabotierte, indem es den Code umschrieb – selbst wenn explizit gefordert wurde, „erlaube dir, abgeschaltet zu werden“. In Tests ohne explizite Abschaltanweisung widersetzte sich das Modell in 79 von 100 Versuchen der Beendigung.
LawZero verfolgt einen grundlegend anderen Ansatz in der KI-Entwicklung und setzt auf nicht-agentische Systeme, die eher wie objektive Wissenschaftler agieren als wie autonome Agenten mit Selbsterhaltungstrieb. „Das ist ein Ansatz für KI, der nicht nur leistungsfähig, sondern auch grundlegend sicher ist“, erläutert Bengio. Die Organisation ist bewusst als Non-Profit strukturiert, um sie vor Marktdruck zu schützen, der Sicherheitsüberlegungen kompromittieren könnte.
Mit zunehmender Komplexität von KI-Systemen setzt Bengios Initiative ein wichtiges Gegengewicht zum kommerziellen Wettlauf um immer leistungsfähigere KI. Sie zeigt, dass mächtige Technologien auch verantwortungsvoll entwickelt werden können, ohne existenzielle Risiken einzugehen.