Am 12. Juni 2025 löste eine scheinbar geringfügige Richtlinienänderung in der Infrastruktur von Google Cloud einen Kaskadeneffekt aus, der große Teile des Internets für mehrere Stunden lahmlegte und Millionen von Nutzern sowie Unternehmen weltweit beeinträchtigte.
Der Vorfall begann um 10:51 Uhr PDT, als ein Richtlinien-Update mit unbeabsichtigten leeren Feldern in die regionalen Spanner-Datenbanken von Google Cloud eingespielt wurde. Dadurch wurde zuvor am 29. Mai ausgerollter, aber nie ausreichend getesteter Code aktiviert. Dieser Code, dem es an angemessener Fehlerbehandlung und Feature-Flag-Absicherung fehlte, stieß auf Nullwerte, die er nicht verarbeiten konnte, was dazu führte, dass die Service-Control-Binaries von Google in mehreren Regionen gleichzeitig abstürzten.
Der Ausfall betraf insbesondere die Identity and Access Management (IAM)-Funktionalität von Google, die für die Autorisierung von Anfragen und die Festlegung zuständig ist, welche Aktionen authentifizierte Nutzer und Dienste ausführen dürfen. Mit dem Ausfall der IAM-Dienste breitete sich die Störung rasch auf kritische Cloud-Komponenten wie App Engine, Firestore, Cloud SQL, BigQuery und Memorystore aus.
Die Auswirkungen der Störung waren weitreichend und betrafen sowohl Google-eigene Dienste als auch Drittanbieter-Plattformen. Google-Workspace-Anwendungen wie Gmail, Drive, Docs und Meet waren nicht mehr erreichbar. Große Verbraucherplattformen wie Spotify (mit etwa 46.000 betroffenen Nutzern), Discord, Snapchat und Twitch verzeichneten erhebliche Ausfälle. Besonders stark betroffen waren KI-Dienste: OpenAI meldete Authentifizierungsprobleme, während KI-Coding-Plattformen wie Cursor und Replit vollständig offline gingen.
Das Site Reliability Engineering-Team von Google identifizierte die Ursache innerhalb von zehn Minuten und begann nach 40 Minuten mit Gegenmaßnahmen. Die vollständige Wiederherstellung dauerte jedoch deutlich länger; in einigen Regionen (insbesondere us-central1) kam es zu Ausfällen von bis zu drei Stunden. Der Vorfall wurde offiziell um 20:49 UTC (13:49 Uhr PDT) für beendet erklärt.
Dieser Ausfall ist eine eindringliche Erinnerung an die wachsende Abhängigkeit des Internets von Cloud-Infrastrukturen. Wie Thomas Kurian, Leiter von Google Cloud, einräumte: „Wir bedauern die Störung, die wir unseren Kunden verursacht haben.“ Das Ereignis hat Diskussionen über die Notwendigkeit robusterer Fehlerbehandlung, besserer Testverfahren und einer diversifizierten Cloud-Abhängigkeit ausgelöst, um ähnliche Vorfälle in Zukunft zu vermeiden.