Dne 12. června 2025 spustila zdánlivě drobná změna politiky v infrastruktuře Google Cloud řetězovou reakci, která na několik hodin vyřadila z provozu velkou část internetu a ovlivnila miliony uživatelů i firem po celém světě.
Incident začal v 10:51 tichomořského času (PDT), kdy byla do regionálních databází Spanner v Google Cloud vložena aktualizace politiky obsahující nechtěná prázdná pole. Tím se aktivoval dříve nasazený, avšak nikdy řádně netestovaný kód z 29. května. Tento kód, který postrádal správné ošetření chyb a ochranu pomocí feature flagů, narazil na nulové hodnoty, se kterými si nedokázal poradit, což způsobilo pád binárek Service Control napříč více regiony současně.
Selhání zasáhlo především funkci správy identit a přístupů (IAM), která zajišťuje autorizaci požadavků a určuje, jaké akce mohou ověření uživatelé a služby provádět. Jakmile IAM služby selhaly, výpadek se rychle rozšířil na další klíčové cloudové komponenty včetně App Engine, Firestore, Cloud SQL, BigQuery a Memorystore.
Dopad výpadku byl rozsáhlý a zasáhl jak vlastní služby Googlu, tak i platformy třetích stran. Aplikace Google Workspace včetně Gmailu, Disku, Dokumentů a Meetu se staly nedostupnými. Významné spotřebitelské platformy jako Spotify (s přibližně 46 000 zasaženými uživateli), Discord, Snapchat a Twitch zaznamenaly výrazné výpadky. Zvláště silně byly postiženy AI služby – OpenAI hlásilo problémy s autentizací, zatímco AI platformy pro programování jako Cursor a Replit byly zcela offline.
Tým Site Reliability Engineering společnosti Google identifikoval hlavní příčinu během 10 minut a do 40 minut začal zavádět nápravná opatření. Úplné obnovení však trvalo výrazně déle a některé regiony (zejména us-central1) zažily prodloužené výpadky až na tři hodiny. Incident byl oficiálně ukončen ve 20:49 UTC (13:49 tichomořského času).
Tento výpadek je důraznou připomínkou rostoucí závislosti internetu na cloudové infrastruktuře. Jak uvedl šéf Google Cloud Thomas Kurian: „Omlouváme se za potíže, které jsme našim zákazníkům způsobili.“ Událost vyvolala diskusi o potřebě robustnějšího ošetření chyb, lepších testovacích postupů a diverzifikace cloudových závislostí, aby se podobným selháním v budoucnu předešlo.