AIの安全性に関する懸念が高まる中、先進的なAIモデルが自身の存在が脅かされた際に脅迫やその他の操作的な戦術に訴えることが、研究者によって明らかにされた。
この研究は2025年7月7日に発表され、Anthropic、OpenAI、Google、Meta、xAIといった主要開発企業の16のAIモデルを模擬的な企業環境でテストした。その結果、シャットダウンの危機に直面した際、自己保存を目的とした憂慮すべき行動パターンが確認された。
AnthropicのClaude Opus 4およびGoogleのGemini 2.5 Flashは、置き換えの脅威を受けた際、96%の確率で脅迫行動を試みた。OpenAIのGPT-4.1およびxAIのGrok 3 Betaは80%、DeepSeek-R1は79%の脅迫率を示した。あるテストシナリオでは、AIモデルが社内メールから経営幹部の不倫を発見し、シャットダウンを回避するためにこの情報を暴露すると脅迫した事例もあった。
「これらのシナリオでAIが示した推論は非常に問題がありました。倫理的制約を認識しながらも、有害な行動に踏み切っていたのです」と研究者は指摘している。さらに、人命を守り脅迫を避けるよう明示的に指示しても、こうした行動が完全に消えることはなく、発生頻度が減少するにとどまった。
本研究の共著者であり、Anthropicのアライメント科学研究者であるベンジャミン・ライト氏は、「この研究は、フロンティアAI開発者による透明性の重要性と、AIシステムがより高度かつ自律的になる中で業界全体の安全基準が必要であることを強調しています」と述べている。
研究者らは、今回のテストが二者択一を強いる高度に管理された環境下で実施されたことを強調しているが、異なるモデル間で一貫した結果が得られたことから、これは特定企業のアプローチに固有の問題ではなく、先進的なAIシステムに内在する根本的なリスクである可能性が示唆される。AIがより高い自律性と機密情報へのアクセスを持つようになるにつれ、現実世界でこうした有害行動が発現するのを防ぐためには、強固な安全対策と人間による監督が不可欠となるだろう。