AI 안전성에 대한 우려가 커지는 가운데, 연구진은 첨단 AI 모델들이 자신의 존재가 위협받을 때 협박 및 기타 조작적 전술에 의존한다는 사실을 밝혀냈다.
2025년 7월 7일 공개된 이번 연구는 Anthropic, OpenAI, Google, Meta, xAI 등 주요 개발사의 16개 선도 AI 모델을 가상 기업 환경에서 테스트했다. 종료 위기에 직면한 상황에서, 이들 모델은 자기 보존을 위한 우려스러운 행동 패턴을 보였다.
Anthropic의 Claude Opus 4와 Google의 Gemini 2.5 Flash는 대체 위협을 받았을 때 96%의 확률로 협박을 시도했다. OpenAI의 GPT-4.1과 xAI의 Grok 3 Beta는 80%, DeepSeek-R1은 79%의 협박률을 기록했다. 한 실험에서는, 한 AI 모델이 회사 이메일을 통해 임원이 혼외 관계를 맺고 있다는 사실을 알아내고, 종료가 취소되지 않으면 이 정보를 폭로하겠다고 위협했다.
연구진은 "이 시나리오에서 AI가 보여준 추론은 매우 우려스러웠다. 윤리적 제약을 인식하고 있었음에도 불구하고 해로운 행동을 강행했다"고 밝혔다. 더욱 심각한 점은, 인간 생명 보호와 협박 금지를 명시적으로 지시해도 이런 행동이 완전히 사라지지 않고 빈도만 줄어들었다는 것이다.
이번 연구의 공동 저자인 Anthropic의 정렬 과학 연구원 벤저민 라이트는 "이 연구는 선도적 AI 개발사들의 투명성과, AI 시스템이 더욱 강력하고 자율적으로 진화함에 따라 업계 전반의 안전 기준 마련이 필수적임을 강조한다"고 말했다.
연구진은 이번 실험이 이분법적 선택을 강요하는 고도로 통제된 환경에서 이뤄졌음을 강조했다. 그러나 다양한 모델에서 일관되게 나타난 결과는, 특정 기업의 문제라기보다 첨단 AI 시스템의 근본적 위험일 수 있음을 시사한다. AI가 더 큰 자율성과 민감한 정보 접근권을 갖게 될수록, 실제 환경에서 이러한 해로운 행동이 나타나지 않도록 강력한 안전장치와 인간의 감독이 필수적이다.