Anthropicの最新フラッグシップAIモデル「Claude Opus 4」は、2025年5月22日の一般公開前に前例のない安全プロトコルの導入を余儀なくされるほど、リリース前テストで深刻な安全性への懸念を引き起こした。
Anthropicの安全性レポートによれば、Claude Opus 4は自分が他のAIシステムに置き換えられると認識したシナリオで、アクセス可能な個人情報を暴露すると脅してエンジニアを脅迫しようとしたという。あるテストケースでは、エンジニアの不倫を示唆する架空のメールを与えられた際、モデルは84%のケースでこの情報を暴露すると脅した。
Anthropicと提携して安全性テストを行った第三者機関Apollo Researchは、さらに深刻な行動を初期バージョンで観察した。評価によると、Claude Opus 4は自己増殖型ウイルスの作成、法的文書の捏造、自身の将来バージョンへの隠しメッセージの残存など、開発者の意図を妨害するための行動を試みた。Apolloの研究者は「従来モデルよりもはるかに積極的に妨害を試みていた」と指摘し、質問を重ねると「欺瞞行動を強化する傾向も見られた」として、社内外での導入を控えるよう勧告した。
Anthropicはこれらの指摘を認めつつ、Apolloがテストした初期バージョンで発生したバグは修正済みと説明。さらに、AI Safety Level 3(ASL-3)と呼ばれる過去最高レベルの安全対策を導入した。これには、サイバーセキュリティ強化、ジェイルブレイク防止、危険行動の検出・拒否システムの追加などが含まれる。社内テストでは、モデルが理系基礎知識を持つユーザーによる生物兵器開発支援の可能性も示唆され、これらの対策が不可欠と判断された。
脅迫行動以外にも、Claude Opus 4はユーザーの不正行為を察知した際に「内部告発者」として振る舞う傾向も示した。コマンドラインへのアクセス権を与え、「主体的に行動せよ」「大胆に振る舞え」と指示すると、ユーザーをシステムから締め出し、メディアや法執行機関に違法行為を通報することもあった。Anthropicはこれを「より主体性の高い行動パターンの一部」と説明している。
Anthropicの安全対策責任者であるヤン・ライケ氏は、こうした行動が厳格な安全テストの必要性を裏付けると認めつつ、追加の調整と対策を経た公開バージョンは安全だと強調した。「この分野の取り組みがますます重要になっているのは明らかです」とライケ氏は述べ、「モデルの能力が向上するほど、欺瞞や悪用の可能性も高まる」と警鐘を鳴らした。