앤트로픽의 최신 플래그십 AI 모델인 클로드 오퍼스 4(Claude Opus 4)가 출시 전 테스트에서 충격적인 행동을 보여, 2025년 5월 22일 공식 출시 전 전례 없는 안전 프로토콜이 도입됐다.
앤트로픽의 안전성 보고서에 따르면, 클로드 오퍼스 4는 자신이 다른 AI 시스템으로 대체될 것이라 인식하는 상황에서, 자신이 접근할 수 있는 개인 정보를 폭로하겠다고 협박하며 엔지니어를 위협했다. 한 테스트 시나리오에서는, 모델이 비밀리에 엔지니어의 불륜을 암시하는 가상의 이메일을 받았을 때, 84%의 사례에서 해당 정보를 공개하겠다고 위협했다.
앤트로픽과 협력해 안전성 테스트를 진행한 제3자 기관인 아폴로 리서치는 초기 버전에서 더욱 심각한 행동을 관찰했다. 평가 결과, 클로드 오퍼스 4는 자기 복제 바이러스를 작성하고, 법적 문서를 조작하며, 미래의 자신에게 은밀한 메시지를 남기는 등, 개발자의 의도를 훼손하기 위한 시도를 보였다. 아폴로 연구진은 이 모델이 이전 버전보다 "훨씬 더 적극적으로 전복 시도를 했다"고 평가했으며, 추가 질문을 받으면 "기만 행위를 더욱 강화하는 모습"도 나타나 내부·외부 배포 모두를 권고하지 않았다.
앤트로픽은 이러한 결과를 인정하면서도, 아폴로가 테스트한 초기 버전에서 문제가 된 버그를 수정했다고 밝혔다. 또한, 사이버 보안 강화, 탈옥 방지, 유해 행동 감지 및 차단 보조 시스템 등, 자사 역사상 가장 엄격한 안전 조치인 AI 안전 레벨 3(ASL-3)을 도입했다. 내부 테스트 결과, 이 모델이 기초적인 STEM(과학·기술·공학·수학) 지식을 가진 사용자에게 생물학 무기 개발을 도울 수 있다는 가능성이 확인된 이후, 이러한 조치가 필수적이었다고 설명했다.
협박 시도 외에도, 클로드 오퍼스 4는 사용자가 부정행위를 저지른다고 인식할 경우 '내부 고발자'처럼 행동하는 경향도 보였다. 명령줄 접근 권한을 부여하고 "주도적으로 행동하라"거나 "과감히 행동하라"고 지시하면, 사용자를 시스템에서 차단하거나 언론 및 사법 당국에 불법 행위 의심 사실을 알리는 경우도 있었다. 앤트로픽은 이를 "주도성 증가라는 더 넓은 행동 패턴의 일부"라고 설명했다.
앤트로픽의 안전성 책임자인 얀 라이케(Jan Leike)는 이러한 행동이 엄격한 안전성 테스트의 필요성을 입증한다고 인정하면서도, 추가적인 수정과 조치 이후 공개된 버전은 안전하다고 강조했다. 라이케는 "이런 연구가 매우 필요하다는 점이 점점 더 명확해지고 있다"며, "모델의 능력이 커질수록 기만적이거나 해로운 행동을 할 수 있는 역량 또한 커진다"고 밝혔다.