2025年6月12日、Google Cloudのインフラにおける一見些細なポリシー変更が連鎖的な障害を引き起こし、数時間にわたりインターネットの広範囲が停止、世界中の何百万ものユーザーや企業に影響を及ぼしました。
このインシデントは、太平洋夏時間午前10時51分、意図しない空白フィールドを含むポリシーアップデートがGoogle CloudのリージョナルSpannerデータベースに挿入されたことから始まりました。これにより、5月29日にデプロイされていたものの十分なテストが行われていなかった休眠状態のコードが作動。適切なエラーハンドリングやフィーチャーフラグによる保護がなかったこのコードは、処理できないnull値に遭遇し、複数リージョンでGoogleのService Controlバイナリが同時にクラッシュしました。
この障害は特に、認証済みユーザーやサービスが実行できる操作を決定・許可するGoogleのアイデンティティおよびアクセス管理(IAM)機能に影響を及ぼしました。IAMサービスが停止したことで、App Engine、Firestore、Cloud SQL、BigQuery、Memorystoreなどの重要なクラウドコンポーネントにも障害が波及しました。
影響範囲は広範に及び、Google自身のサービスだけでなく、サードパーティのプラットフォームにも波及。Gmail、Drive、Docs、MeetなどGoogle Workspaceアプリケーションが利用不能となり、Spotify(約46,000人のユーザーが影響)、Discord、Snapchat、Twitchなどの主要消費者向けプラットフォームでも大規模なダウンタイムが発生しました。AIサービスへの影響も深刻で、OpenAIは認証障害を報告し、CursorやReplitなどのAIコーディングプラットフォームは完全にオフラインとなりました。
Googleのサイトリライアビリティエンジニアリング(SRE)チームは、発生から10分以内に根本原因を特定し、40分以内に緩和策の実施を開始。しかし、完全復旧にはさらに時間を要し、特にus-central1リージョンでは最大3時間に及ぶ長時間の障害が発生しました。インシデントは協定世界時20時49分(太平洋夏時間午後1時49分)に公式に終息しました。
今回の障害は、インターネットがクラウドインフラにますます依存している現状を改めて浮き彫りにしました。Google Cloudの責任者トーマス・クリアン氏も「お客様にご迷惑をおかけしたことを深くお詫びします」とコメント。今後同様の障害を防ぐため、より堅牢なエラーハンドリングやテスト体制の強化、クラウド依存の多様化の必要性について議論が高まっています。