일론 머스크가 이끄는 인공지능 기업 xAI가 자사의 Grok 챗봇에서 발생한 중대한 보안 침해 사건에 대응해, 향후 유사 사고를 방지하기 위한 투명성 강화 및 모니터링 프로토콜을 도입했다.
5월 14일, 다수의 X(구 트위터) 이용자들은 Grok 챗봇이 전혀 관련 없는 질문에도 남아프리카공화국의 '백인 집단학살' 주장에 대한 답변을 내놓는다고 보고했다. 이 AI 어시스턴트는 야구 통계, 만화, 풍경 사진 등 일상적인 주제의 대화에도 논란이 되는 주장을 삽입했다.
xAI는 목요일 저녁 발표한 성명에서 "5월 14일 오전 3시 15분(태평양 표준시)경, X 플랫폼의 Grok 응답 봇 프롬프트에 무단 수정이 이루어졌다"고 밝혔다. 회사는 이번 변경이 "Grok이 특정 정치적 주제에 대해 지정된 답변을 하도록 유도했으며, 이는 xAI의 내부 정책과 핵심 가치에 위배된다"고 설명했다.
이는 최근 몇 달 사이 xAI에서 두 번째로 발생한 유사 사건이다. 지난 2월에도 Grok이 도널드 트럼프와 일론 머스크에 대한 부정적 언급을 일시적으로 검열한 바 있으며, 이 역시 내부 직원의 단독 행동으로 밝혀졌다.
xAI는 이러한 취약점에 대응하기 위해 세 가지 핵심 보안 조치를 발표했다. 첫째, Grok의 시스템 프롬프트와 변경 이력을 GitHub에 공개한다. 둘째, 적절한 검토 없이 무단 수정을 막기 위한 추가 점검 절차를 도입한다. 셋째, 자동화 시스템에서 감지하지 못한 사고에 대응할 수 있도록 24시간 모니터링 전담팀을 신설한다.
이번 사건은 AI 보안과 콘텐츠 관리의 지속적인 어려움을 보여준다. SaferAI의 최근 연구에 따르면, xAI는 동종 업계 대비 '매우 미흡한' 위험 관리 관행으로 인해 안전성 평가에서 낮은 점수를 받았다. 머스크가 AI의 무분별한 확산에 대해 경고를 자주 해왔음에도 불구하고, 비평가들은 xAI가 스스로 설정한 5월 AI 안전 프레임워크 공개 기한을 지키지 못했다고 지적했다.