12 июня 2025 года, на первый взгляд незначительное изменение политики в инфраструктуре Google Cloud вызвало цепную реакцию сбоев, которая на несколько часов вывела из строя значительную часть интернета, затронув миллионы пользователей и компаний по всему миру.
Инцидент начался в 10:51 по тихоокеанскому времени, когда в региональные базы данных Spanner Google Cloud была внесена политика с непреднамеренно пустыми полями. Это активировало спящий код, внедрённый ещё 29 мая, но так и не прошедший полноценное тестирование. Код, не обладавший необходимой обработкой ошибок и защитой через feature flag, столкнулся с нулевыми значениями, которые не мог обработать, что привело к массовому сбою бинарных файлов Service Control Google сразу в нескольких регионах.
Сбой особенно сильно затронул работу системы управления идентификацией и доступом (IAM), отвечающей за авторизацию запросов и определение прав пользователей и сервисов. По мере отказа IAM сбои быстро распространились на ключевые компоненты облака, включая App Engine, Firestore, Cloud SQL, BigQuery и Memorystore.
Масштаб происшествия оказался значительным: пострадали как собственные сервисы Google, так и сторонние платформы. Приложения Google Workspace, такие как Gmail, Drive, Docs и Meet, стали недоступны. Крупные потребительские платформы, включая Spotify (порядка 46 000 затронутых пользователей), Discord, Snapchat и Twitch, столкнулись с серьёзными простоями. Особенно сильно пострадали AI-сервисы: OpenAI сообщила о проблемах с аутентификацией, а платформы для программирования на базе ИИ, такие как Cursor и Replit, полностью вышли из строя.
Команда инженеров по обеспечению надёжности сайтов Google (SRE) выявила коренную причину сбоя за 10 минут и приступила к устранению через 40 минут. Тем не менее, полное восстановление заняло значительно больше времени: в некоторых регионах (особенно us-central1) перебои продолжались до трёх часов. Официально инцидент был завершён в 20:49 UTC (13:49 по тихоокеанскому времени).
Этот сбой стал наглядным напоминанием о возрастающей зависимости интернета от облачной инфраструктуры. Как отметил глава Google Cloud Томас Куриан: «Мы сожалеем о неудобствах, которые это доставило нашим клиентам». Инцидент вызвал обсуждение необходимости более надёжной обработки ошибок, улучшения процедур тестирования и диверсификации облачных зависимостей для предотвращения подобных сбоев в будущем.