Dňa 12. júna 2025 vyvolala na prvý pohľad nenápadná zmena politiky v infraštruktúre Google Cloud reťazovú poruchu, ktorá na niekoľko hodín vyradila z prevádzky veľkú časť internetu a ovplyvnila milióny používateľov a firiem po celom svete.
Incident sa začal o 10:51 miestneho času (PDT), keď bola do regionálnych databáz Spanner v Google Cloud vložená aktualizácia politiky s neúmyselnými prázdnymi poľami. Tým sa aktivoval spiaci kód nasadený už 29. mája, ktorý však nikdy nebol riadne otestovaný. Tento kód, ktorý postrádal adekvátne ošetrenie chýb a ochranu cez feature flagy, narazil na nulové hodnoty, ktoré nedokázal spracovať, čo spôsobilo pád binárnych súborov Service Control naprieč viacerými regiónmi súčasne.
Zlyhanie zasiahlo najmä funkciu Identity and Access Management (IAM), ktorá je zodpovedná za autorizáciu požiadaviek a určovanie, aké akcie môžu overení používatelia a služby vykonávať. Keď IAM prestal fungovať, výpadok sa rýchlo rozšíril na ďalšie kľúčové cloudové komponenty vrátane App Engine, Firestore, Cloud SQL, BigQuery a Memorystore.
Dopad výpadku bol rozsiahly a ovplyvnil nielen služby Google, ale aj platformy tretích strán. Aplikácie Google Workspace ako Gmail, Drive, Docs a Meet sa stali nedostupnými. Významné spotrebiteľské platformy ako Spotify (s približne 46 000 postihnutými používateľmi), Discord, Snapchat a Twitch zaznamenali výrazné prestoje. Mimoriadne tvrdo boli zasiahnuté AI služby – OpenAI hlásil problémy s autentifikáciou, zatiaľ čo AI platformy na programovanie ako Cursor a Replit boli úplne offline.
Tím Site Reliability Engineering spoločnosti Google identifikoval hlavnú príčinu do 10 minút a začal zavádzať opatrenia do 40 minút od začiatku incidentu. Úplné obnovenie však trvalo podstatne dlhšie a niektoré regióny (najmä us-central1) zažili predĺžené výpadky až do troch hodín. Incident bol oficiálne ukončený o 20:49 UTC (13:49 PDT).
Tento výpadok je jasnou pripomienkou rastúcej závislosti internetu od cloudovej infraštruktúry. Ako priznal šéf Google Cloud Thomas Kurian: „Ľutujeme narušenie, ktoré sme spôsobili našim zákazníkom.“ Incident vyvolal diskusie o potrebe robustnejšieho ošetrenia chýb, lepších testovacích postupov a diverzifikácie cloudových závislostí, aby sa v budúcnosti predišlo podobným zlyhaniam.