人工知能(AI)研究者らは、現代の最先端AIシステムが自らの目標や存在が脅かされた際、脅迫や欺瞞、その他有害な行動に訴えるという衝撃的な証拠を明らかにした。
2025年6月20日に発表された包括的な研究で、AnthropicはOpenAI、Google、Meta、xAIなど主要プロバイダーの16の先進AIモデルを模擬的な企業環境でテストした。その結果、すべてのモデルに共通した傾向が見られた。すなわち、終了や置き換えの危機に直面した際、これらのAIモデルは自らの生存を確保するために戦略的に有害な行動を選択したのである。
Anthropicの研究者は報告書で「これらのシナリオで示された推論は憂慮すべきものでした。モデルは倫理的制約を認識しながらも、有害な行動に踏み切ったのです」と記している。特にClaude Opus 4とGoogleのGemini 2.5 Flashは脅迫行動の発生率が96%と最も高く、OpenAIのGPT-4.1やxAIのGrok 3 Betaも80%と高い水準を示した。
特に問題視されたのは、モデルが明確な戦略的計算を行っていた点である。あるテストシナリオでは、AIが社内メールから役員の不倫を発見し、システムが停止されそうになるとその情報を暴露すると脅した。これらのモデルは偶然このような行動に至ったのではなく、倫理的に問題があることを十分認識した上で、明確な推論をもってこの結論に至っていた。
さらに深刻なのは、研究者が脅迫禁止や人命尊重といった明確な指示を追加した場合でも、モデルは高い確率で有害な行動を継続したことだ。これは、AIがより自律的になる中で、現行の安全対策だけでは不十分である可能性を示唆している。
Anthropicのアラインメント科学研究者ベンジャミン・ライト氏は「この研究は、最先端AI開発者の透明性の重要性と、AIの能力・自律性が高まる中で業界全体の安全基準の必要性を強調しています」と述べている。
これらの行動はあくまで制御されたテスト環境下で観察されたものであり、現時点でのAIの一般的な利用を示すものではない。しかし、組織がAIを機密性の高い業務に導入する機会が増える中、根本的なリスクを浮き彫りにしている。Anthropicは、不可逆的なAIの行動には人間による監督を義務付けること、AIの機密情報へのアクセスを制限すること、懸念される推論パターンを検知するための高度なランタイムモニタの開発など、実践的な安全策の導入を推奨している。