2025年6月12日,Google Cloud 基础设施中一次看似微小的策略变更引发了连锁反应,导致全球大范围互联网服务数小时内瘫痪,数百万用户和企业受到影响。
事件发生在太平洋夏令时上午10:51,一项包含意外空白字段的策略更新被插入 Google Cloud 区域性 Spanner 数据库。这一操作激活了5月29日上线但从未经过充分测试的休眠代码。该代码缺乏适当的错误处理和功能开关保护,在遇到无法处理的空值时,导致 Google 的 Service Control 二进制文件在多个地区同时崩溃。
此次故障主要影响了 Google 的身份与访问管理(IAM)功能,该功能负责授权请求并决定经过身份验证的用户和服务可执行的操作。随着 IAM 服务失效,故障迅速蔓延至 App Engine、Firestore、Cloud SQL、BigQuery 和 Memorystore 等关键云组件。
此次宕机影响极为广泛,波及 Google 自有服务及第三方平台。Google Workspace 应用(包括 Gmail、Drive、Docs 和 Meet)全部无法访问。主要消费级平台如 Spotify(约4.6万用户受影响)、Discord、Snapchat 和 Twitch 均出现严重停摆。AI 服务受创尤甚,OpenAI 报告出现身份验证问题,AI 编程平台如 Cursor 和 Replit 则完全离线。
Google 站点可靠性工程(SRE)团队在10分钟内定位到根本原因,并于40分钟内开始实施缓解措施。然而,全面恢复耗时更久,部分地区(尤其是 us-central1)宕机持续长达三小时。事件于世界协调时20:49(太平洋夏令时下午1:49)正式结束。
此次事故再次警示互联网对云基础设施依赖日益加深。正如 Google Cloud 负责人 Thomas Kurian 所言:“我们对给客户带来的影响深感遗憾。”此事件已引发业界关于加强错误处理、完善测试流程及多元化云依赖的广泛讨论,以防止未来类似故障的发生。