- kesäkuuta 2025 näennäisesti vähäpätöinen politiikkamuutos Google Cloudin infrastruktuurissa käynnisti ketjureaktion, joka kaatoi suuren osan internetistä useiden tuntien ajaksi ja vaikutti miljooniin käyttäjiin ja yrityksiin maailmanlaajuisesti.
Tapaus alkoi klo 10.51 PDT, kun politiikkapäivitys, joka sisälsi tahattomia tyhjiä kenttiä, lisättiin Google Cloudin alueellisiin Spanner-tietokantoihin. Tämä aktivoi lepotilassa olleen koodin, joka oli otettu käyttöön jo 29. toukokuuta mutta jota ei koskaan testattu kunnolla. Kyseinen koodi, jolta puuttui asianmukainen virheenkäsittely ja feature flag -suojaus, kohtasi käsittelemättömiä null-arvoja, mikä johti Googlen Service Control -binäärien kaatumiseen useilla alueilla samanaikaisesti.
Vika vaikutti erityisesti Googlen Identity and Access Management (IAM) -toiminnallisuuteen, joka vastaa pyyntöjen valtuuttamisesta ja siitä, mitä toimintoja tunnistetut käyttäjät ja palvelut voivat suorittaa. Kun IAM-palvelut epäonnistuivat, häiriö levisi nopeasti kriittisiin pilvikomponentteihin, kuten App Engineen, Firestoreen, Cloud SQL:ään, BigQueryyn ja Memorystoreen.
Katkoksen vaikutukset olivat laajat, koskien sekä Googlen omia palveluita että kolmannen osapuolen alustoja. Google Workspacen sovellukset, kuten Gmail, Drive, Docs ja Meet, muuttuivat saavuttamattomiksi. Suuret kuluttaja-alustat, kuten Spotify (noin 46 000 käyttäjää kärsi häiriöistä), Discord, Snapchat ja Twitch, kokivat merkittäviä käyttökatkoja. Erityisesti tekoälypalvelut kärsivät: OpenAI raportoi tunnistautumisongelmista, ja tekoälypohjaiset koodausalustat kuten Cursor ja Replit menivät kokonaan offline-tilaan.
Googlen Site Reliability Engineering -tiimi tunnisti juurisyyn kymmenessä minuutissa ja aloitti korjaavat toimet 40 minuutissa. Täydellinen palautuminen kesti kuitenkin huomattavasti kauemmin, ja joillakin alueilla (erityisesti us-central1) esiintyi jopa kolmen tunnin mittaisia katkoksia. Tapaus päättyi virallisesti klo 20.49 UTC (klo 13.49 PDT).
Tämä katkos toimii muistutuksena internetin kasvavasta riippuvuudesta pilvi-infrastruktuurista. Kuten Google Cloudin johtaja Thomas Kurian totesi: "Pahoittelemme asiakkaillemme aiheutunutta häiriötä." Tapaus on käynnistänyt keskustelun siitä, miten virheenkäsittelystä, testauskäytännöistä ja pilviriippuvuuksien hajauttamisesta on huolehdittava paremmin vastaavien ongelmien ehkäisemiseksi tulevaisuudessa.