2025년 6월 12일, 구글 클라우드 인프라의 겉보기에 사소한 정책 변경이 연쇄적인 장애를 촉발하며 수 시간 동안 전 세계 인터넷의 상당 부분이 마비됐다. 이로 인해 수백만 명의 사용자와 기업이 영향을 받았다.
사고는 오전 10시 51분(태평양 표준시)에 시작됐다. 의도치 않은 빈 필드가 포함된 정책 업데이트가 구글 클라우드의 지역별 Spanner 데이터베이스에 삽입되면서 문제가 발생했다. 이로 인해 5월 29일 배포됐으나 제대로 테스트되지 않았던 휴면 코드가 활성화됐다. 해당 코드는 적절한 오류 처리와 기능 플래그 보호가 없었으며, 처리할 수 없는 null 값을 만나면서 구글의 서비스 컨트롤 바이너리가 여러 지역에서 동시에 크래시됐다.
이번 장애는 특히 구글의 신원 및 접근 관리(IAM) 기능에 큰 영향을 미쳤다. IAM은 인증된 사용자와 서비스가 수행할 수 있는 작업을 결정하고 요청을 승인하는 역할을 한다. IAM 서비스가 중단되자, App Engine, Firestore, Cloud SQL, BigQuery, Memorystore 등 핵심 클라우드 컴포넌트로 빠르게 장애가 확산됐다.
장애의 영향은 구글 자체 서비스뿐 아니라 외부 플랫폼에도 광범위하게 미쳤다. Gmail, Drive, Docs, Meet 등 구글 워크스페이스 애플리케이션이 접속 불가 상태가 됐고, 스포티파이(약 4만 6천 명의 이용자 영향), 디스코드, 스냅챗, 트위치 등 주요 소비자 플랫폼도 심각한 다운타임을 겪었다. AI 서비스 역시 큰 타격을 받았으며, 오픈AI는 인증 문제를 보고했고, Cursor, Replit 등 AI 코딩 플랫폼은 완전히 오프라인 상태가 됐다.
구글 사이트 신뢰성 엔지니어링(SRE) 팀은 10분 만에 근본 원인을 파악하고, 40분 내로 대응 조치를 시작했다. 그러나 완전한 복구까지는 상당한 시간이 소요됐으며, 일부 지역(특히 us-central1)은 최대 3시간에 달하는 장기 장애를 겪었다. 공식적으로 사고는 20시 49분 UTC(태평양 표준시 오후 1시 49분)에 종료됐다.
이번 장애는 인터넷이 클라우드 인프라에 점점 더 의존하고 있음을 여실히 보여준다. 구글 클라우드 CEO 토마스 쿠리안은 "고객 여러분께 불편을 드려 유감스럽게 생각한다"고 밝혔다. 이번 사건을 계기로, 보다 견고한 오류 처리, 철저한 테스트 절차, 그리고 클라우드 의존성의 다변화 필요성에 대한 논의가 활발히 이뤄지고 있다.