인공지능 산업 내 선도 기업들 사이에서 점점 강력해지는 AI 시스템이 초래할 수 있는 잠재적 실존적 위험을 어떻게 다룰 것인가를 두고 뚜렷한 분열이 나타나고 있다.
Amazon의 지원을 받으며 기업가치 610억 달러에 달하는 Anthropic은 가장 신중한 행보를 보이고 있다. 이 회사는 통제되지 않는 AI 역량이 안전장치를 앞지를 수 있다는 점을 지속적으로 경고해왔다. CEO 다리오 아모데이는 "곧 모델이 거의 모든 면에서 인간을 능가할 것"이라며 최악의 시나리오 대비의 필요성을 강하게 주장했다. Anthropic의 책임 있는 확장 정책에는 사무실 내 숨겨진 장치 탐지 등 물리적 보안 강화와, 강력한 모델 배포 전 이를 평가하는 경영진 위험 위원회 신설 등이 포함된다.
기업가치 3,000억 달러로 평가받는 OpenAI는 투명성 강화에 초점을 맞춘 상이한 전략을 취하고 있다. 2025년 5월, OpenAI는 자사 모델이 유해 콘텐츠 생성, 탈옥(jailbreak), 환각(hallucination) 등 다양한 안전성 테스트에서 어떻게 평가되는지 공개하는 웹 플랫폼인 Safety Evaluations Hub를 출시했다. OpenAI는 주요 모델 출시 시마다 이 지표를 정기적으로 업데이트하겠다고 약속했다. 그러나 최근 Preparedness Framework의 업데이트에서는, 경쟁사가 유사한 보호장치 없이 고위험 시스템을 출시할 경우 자사 안전 요건을 "조정"할 수 있다는 입장을 밝혀 우려를 낳았다.
Google DeepMind는 가장 체계적인 접근법을 택한 것으로 보인다. 2025년 4월, AGI 안전에 관한 145페이지 분량의 포괄적 논문을 공개했으며, Frontier Safety Framework를 통해 AI 위험을 오용, 불일치, 사고, 구조적 위험 등 네 가지로 분류했다. DeepMind의 전략은 견고한 훈련, 모니터링, 보안 프로토콜을 통한 점진적 진전을 강조한다. 공동 창업자 셰인 레그가 이끄는 AGI 안전 위원회를 설립했으며, Apollo, Redwood Research 등 비영리 AI 안전 연구 기관과도 협력하고 있다.
이처럼 상이한 전략은 빠른 AI 역량 개발과 강력한 안전장치 도입 사이의 근본적 긴장을 반영한다. AI 시스템이 다양한 영역에서 인간 수준의 성능에 근접함에 따라, 투명한 벤치마크에 기반한 통합적 산업 안전 컨소시엄의 필요성이 점점 더 커지고 있다.
전문가들은 안전 기준의 조율이 이뤄지지 않을 경우, 첨단 모델을 빠르게 배포하려는 경쟁 압력으로 인해 기업들이 안전 조치를 소홀히 할 수 있다고 지적한다. Anthropic의 잭 클라크는 "강력한 위험 식별 및 완화 메커니즘을 통해 책임 있는 AI 개발을 촉진해야 한다"며, 강력한 시스템의 대규모 배포 전 업계 차원의 노력이 필요하다고 강조했다.