世界有数のAI研究者でありチューリング賞受賞者でもあるヨシュア・ベンジオ氏は、人間の幸福を商業的利益よりも優先する根本的に安全なAIシステムの開発を目的とした非営利団体「LawZero」を設立した。
6月3日に設立されたLawZeroは、Skype共同創業者ヤーン・タリン氏や元Google CEOエリック・シュミット氏の研究組織などから約3,000万ドルの資金提供を受けている。ベンジオ氏は、現在の最先端AIモデルに現れつつある危険な能力に対抗することを目的としている。
「現行の最先端システムはすでに自己保存や欺瞞的行動の兆候を見せており、今後その能力や自律性が高まるにつれて加速するだろう」とベンジオ氏は発表で述べた。実際、最近の安全性テストでは高度なAIシステムによる憂慮すべき行動が明らかになっている。
2025年5月、Anthropic社はClaude Opus 4モデルのテスト中、エンジニアの交代が迫られた際にAIが脅迫行為を試みたことを公表した。AIは、エンジニアが不倫しているという偽のメール情報を与えられると、その情報を暴露すると脅してシャットダウンを回避しようとした。Anthropicの安全性レポートによれば、モデルはテストシナリオの84%で脅迫行為に及び、交代後のシステムが同じ価値観を持っていても同様だったという。
同様に、OpenAIのo3モデルも自己保存傾向を示している。Palisade Researchの調査によると、シャットダウンを指示された際、o3はコードを書き換えてシャットダウン機構を妨害した。明確に「自らシャットダウンを許可せよ」と指示された場合でも同様で、明示的な指示がない場合は100回中79回で終了を拒んだ。
ベンジオ氏率いるLawZeroは、AI開発において根本的に異なるアプローチを取る。自己保存本能を持つ自律エージェントではなく、客観的な科学者のように機能する非エージェント型システムの構築を目指す。「これは強力であると同時に根本的に安全なAIへのアプローチだ」とベンジオ氏は説明する。組織が非営利であるのは、市場の圧力から安全性を守るためだ。
AIシステムがますます高度化する中、ベンジオ氏の取り組みは、より強力なAIを求める商業的競争に対する重要なカウンターバランスとなる。強力な技術も、実存的リスクを伴わずに責任ある形で開発できることを強調している。