12 czerwca 2025 roku pozornie drobna zmiana polityki w infrastrukturze Google Cloud wywołała kaskadową awarię, która na kilka godzin sparaliżowała znaczną część internetu, wpływając na miliony użytkowników i firm na całym świecie.
Incydent rozpoczął się o godzinie 10:51 czasu pacyficznego (PDT), gdy do regionalnych baz danych Spanner w Google Cloud wprowadzono aktualizację polityki zawierającą niezamierzone puste pola. To aktywowało uśpiony kod wdrożony 29 maja, który nigdy nie został odpowiednio przetestowany. Kod ten, pozbawiony właściwej obsługi błędów i zabezpieczeń w postaci flag funkcjonalnych, napotkał wartości null, których nie był w stanie przetworzyć, co doprowadziło do awarii binariów Service Control Google w wielu regionach jednocześnie.
Awaria szczególnie dotknęła funkcjonalność Identity and Access Management (IAM) Google, odpowiedzialną za autoryzację żądań i określanie, jakie działania mogą wykonywać uwierzytelnieni użytkownicy i usługi. Wraz z upadkiem usług IAM, zakłócenia szybko rozprzestrzeniły się na kluczowe komponenty chmurowe, takie jak App Engine, Firestore, Cloud SQL, BigQuery czy Memorystore.
Skutki awarii były rozległe, dotykając zarówno usług Google, jak i platform zewnętrznych. Aplikacje Google Workspace, w tym Gmail, Drive, Docs i Meet, stały się niedostępne. Znaczący czas niedostępności odnotowały główne platformy konsumenckie, takie jak Spotify (z około 46 000 dotkniętych użytkowników), Discord, Snapchat i Twitch. Szczególnie mocno ucierpiały usługi AI – OpenAI zgłaszało problemy z uwierzytelnianiem, a platformy programistyczne AI, takie jak Cursor i Replit, całkowicie przestały działać.
Zespół Site Reliability Engineering Google zidentyfikował przyczynę awarii w ciągu 10 minut i rozpoczął wdrażanie działań naprawczych po 40 minutach. Pełne przywrócenie usług trwało jednak znacznie dłużej – niektóre regiony (szczególnie us-central1) doświadczały wydłużonych przestojów sięgających nawet trzech godzin. Incydent oficjalnie zakończył się o godzinie 20:49 UTC (13:49 czasu PDT).
Ta awaria jest dobitnym przypomnieniem o rosnącej zależności internetu od infrastruktury chmurowej. Jak przyznał Thomas Kurian, szef Google Cloud: „Przepraszamy za zakłócenia, których doświadczyli nasi klienci”. Wydarzenie to wywołało dyskusje na temat potrzeby bardziej solidnej obsługi błędów, lepszych procedur testowania oraz dywersyfikacji zależności chmurowych, aby zapobiec podobnym awariom w przyszłości.