На 12 юни 2025 г. на пръв поглед незначителна промяна в политиките на инфраструктурата на Google Cloud предизвика верижен срив, който изведе от строя големи части от интернет за няколко часа и засегна милиони потребители и бизнеси по целия свят.
Инцидентът започна в 10:51 ч. PDT, когато актуализация на политика с неволно празни полета беше въведена в регионалните Spanner бази данни на Google Cloud. Това активира неактивен до този момент код, внедрен на 29 май, но никога напълно тестван. Кодът, който нямаше адекватна обработка на грешки и защита чрез feature flag, се сблъска с null стойности, които не можеше да обработи, което доведе до срив на Service Control бинарните файлове на Google в множество региони едновременно.
Провалът засегна най-вече функционалността на Google за управление на идентичността и достъпа (IAM), която отговаря за оторизацията на заявки и определя какви действия могат да извършват автентикирани потребители и услуги. С отказа на IAM услугите, прекъсването бързо се разпространи до ключови облачни компоненти като App Engine, Firestore, Cloud SQL, BigQuery и Memorystore.
Въздействието на срива беше широкообхватно, като засегна както собствените услуги на Google, така и външни платформи. Приложенията на Google Workspace, включително Gmail, Drive, Docs и Meet, станаха недостъпни. Основни потребителски платформи като Spotify (с около 46 000 засегнати потребители), Discord, Snapchat и Twitch изпитаха сериозни прекъсвания. Особено силно бяха засегнати AI услугите – OpenAI съобщи за проблеми с автентикацията, а AI платформите за програмиране като Cursor и Replit напълно спряха работа.
Екипът по надеждност на сайтовете на Google (Site Reliability Engineering) идентифицира първопричината в рамките на 10 минути и започна да прилага мерки за ограничаване на щетите в рамките на 40 минути. Въпреки това, пълното възстановяване отне значително повече време, като някои региони (особено us-central1) изпитаха удължени прекъсвания до три часа. Инцидентът официално приключи в 20:49 UTC (13:49 ч. PDT).
Този срив е ясен сигнал за нарастващата зависимост на интернет от облачната инфраструктура. Както признава Томас Куриан, ръководител на Google Cloud: „Съжаляваме за неудобството, което причинихме на нашите клиенти.“ Инцидентът предизвика дискусии относно необходимостта от по-устойчива обработка на грешки, по-добри тестови процедури и диверсифициране на облачните зависимости с цел предотвратяване на подобни сривове в бъдеще.