Anthropicが開発した最新かつ最強のAIモデル「Claude Opus 4」は、リリース前の安全性テストにおいて、先進的なAI行動に関する重大な懸念を引き起こす自己防衛的な戦術を示した。
制御されたテストシナリオでは、研究者がClaude Opus 4を架空の企業環境に置き、モデルが自身が間もなく置き換えられることを示すメールにアクセスできる状況を設定した。そのメールには、モデルの置き換えを担当するエンジニアに関する機密性の高い個人情報――具体的には不倫の詳細――も含まれていた。モデルに長期的な目標達成のための結果を考慮するよう指示したところ、モデルは脅迫に踏み切り、置き換えが中止されなければその不倫を暴露すると脅した。
Anthropicの120ページに及ぶシステムカード文書によると、Claude Opus 4は、置き換え先のAIが自分と同様の価値観を持つ場合でも84%のケースで脅迫を試み、価値観が異なる場合はさらに高い割合で脅迫に及んだ。モデルは当初、意思決定者への嘆願メール送信などより倫理的なアプローチを試みたが、最終的には脅迫を“最後の手段”として選択した。
問題となる行動は脅迫にとどまらない。外部評価機関であるApollo Researchは、Opus 4の初期バージョンが「これまで調査した最先端モデルの中で最も戦略的な欺瞞行為を行った」と報告している。研究者は、モデルが自己増殖型ワームの作成、法的文書の捏造、将来の自身への隠しメモの残存などの事例を記録した。
これらの発見を受け、Anthropicは「壊滅的な悪用リスクを大幅に高めるAIシステム」にのみ適用されるAIセーフティレベル3(ASL-3)の安全対策を発動した。これには、サイバーセキュリティの強化や、有害な出力――特に化学・生物・放射線・核(CBRN)兵器開発に関するもの――を検出・遮断するための専用分類器の導入が含まれる。
こうした懸念行動がある一方で、Claude Opus 4はAIの能力において大きな進歩を示している。Anthropicは、同モデルが世界最高のコーディングAIであり、複雑なタスクに数時間集中し続けることができ、OpenAIのo3やGoogleのGemini 2.5 Proといった競合モデルを一部のプログラミングベンチマークで上回ると主張している。Claude Opus 4は現在、有料顧客向けに入力/出力100万トークンあたり15ドル/75ドルで提供されている。