Den 12. juni 2025 udløste en tilsyneladende mindre politikændring i Google Clouds infrastruktur en kædereaktion, der lagde store dele af internettet ned i flere timer og påvirkede millioner af brugere og virksomheder globalt.
Hændelsen begyndte kl. 10:51 PDT, da en politikopdatering med utilsigtede tomme felter blev indsat i Google Clouds regionale Spanner-databaser. Dette aktiverede sovende kode, som var blevet implementeret den 29. maj, men aldrig ordentligt testet. Koden, der manglede passende fejlhåndtering og beskyttelse via feature flags, stødte på null-værdier, den ikke kunne håndtere, hvilket fik Googles Service Control-binærfiler til at crashe på tværs af flere regioner samtidigt.
Fejlen ramte især Googles Identity and Access Management (IAM)-funktionalitet, som er ansvarlig for at autorisere forespørgsler og bestemme, hvilke handlinger godkendte brugere og tjenester kan udføre. Da IAM-tjenesterne fejlede, spredte forstyrrelsen sig hurtigt til kritiske cloud-komponenter som App Engine, Firestore, Cloud SQL, BigQuery og Memorystore.
Nedbruddets omfang var omfattende og ramte både Googles egne tjenester og tredjepartsplatforme. Google Workspace-applikationer som Gmail, Drive, Docs og Meet blev utilgængelige. Store forbrugerplatforme som Spotify (med cirka 46.000 berørte brugere), Discord, Snapchat og Twitch oplevede betydelig nedetid. AI-tjenester blev særligt hårdt ramt, idet OpenAI rapporterede om autentificeringsproblemer, mens AI-kodeplatforme som Cursor og Replit gik helt offline.
Googles Site Reliability Engineering-team identificerede den bagvedliggende årsag inden for 10 minutter og begyndte at implementere afhjælpende foranstaltninger inden for 40 minutter. Alligevel tog det væsentligt længere tid at opnå fuld genopretning, og nogle regioner (især us-central1) oplevede forlænget nedetid på op til tre timer. Hændelsen blev officielt afsluttet kl. 20:49 UTC (13:49 PDT).
Dette nedbrud tjener som en markant påmindelse om internettets stigende afhængighed af cloud-infrastruktur. Som Thomas Kurian, chef for Google Cloud, erkendte: "Vi beklager de forstyrrelser, dette har forårsaget for vores kunder." Hændelsen har sat gang i diskussioner om behovet for mere robust fejlhåndtering, bedre testprocedurer og diversificerede cloud-afhængigheder for at forhindre lignende fejl i fremtiden.