menu
close

Сбой в системе IAM Google Cloud парализовал глобальные интернет-сервисы

Критический сбой в системе управления идентификацией и доступом (IAM) Google Cloud 12 июня 2025 года вызвал масштабные перебои в работе интернет-сервисов по всему миру. Авария, произошедшая из-за обновления программного обеспечения с недостаточной обработкой ошибок, затронула более 50 сервисов Google Cloud в 40+ регионах. Крупные платформы, включая Spotify, Discord, OpenAI и Cloudflare, столкнулись с серьезными простоями, что подчеркнуло растущую зависимость критической инфраструктуры от облачных сервисов.
Сбой в системе IAM Google Cloud парализовал глобальные интернет-сервисы

12 июня 2025 года, на первый взгляд незначительное изменение политики в инфраструктуре Google Cloud вызвало цепную реакцию сбоев, которая на несколько часов вывела из строя значительную часть интернета, затронув миллионы пользователей и компаний по всему миру.

Инцидент начался в 10:51 по тихоокеанскому времени, когда в региональные базы данных Spanner Google Cloud была внесена политика с непреднамеренно пустыми полями. Это активировало спящий код, внедрённый ещё 29 мая, но так и не прошедший полноценное тестирование. Код, не обладавший необходимой обработкой ошибок и защитой через feature flag, столкнулся с нулевыми значениями, которые не мог обработать, что привело к массовому сбою бинарных файлов Service Control Google сразу в нескольких регионах.

Сбой особенно сильно затронул работу системы управления идентификацией и доступом (IAM), отвечающей за авторизацию запросов и определение прав пользователей и сервисов. По мере отказа IAM сбои быстро распространились на ключевые компоненты облака, включая App Engine, Firestore, Cloud SQL, BigQuery и Memorystore.

Масштаб происшествия оказался значительным: пострадали как собственные сервисы Google, так и сторонние платформы. Приложения Google Workspace, такие как Gmail, Drive, Docs и Meet, стали недоступны. Крупные потребительские платформы, включая Spotify (порядка 46 000 затронутых пользователей), Discord, Snapchat и Twitch, столкнулись с серьёзными простоями. Особенно сильно пострадали AI-сервисы: OpenAI сообщила о проблемах с аутентификацией, а платформы для программирования на базе ИИ, такие как Cursor и Replit, полностью вышли из строя.

Команда инженеров по обеспечению надёжности сайтов Google (SRE) выявила коренную причину сбоя за 10 минут и приступила к устранению через 40 минут. Тем не менее, полное восстановление заняло значительно больше времени: в некоторых регионах (особенно us-central1) перебои продолжались до трёх часов. Официально инцидент был завершён в 20:49 UTC (13:49 по тихоокеанскому времени).

Этот сбой стал наглядным напоминанием о возрастающей зависимости интернета от облачной инфраструктуры. Как отметил глава Google Cloud Томас Куриан: «Мы сожалеем о неудобствах, которые это доставило нашим клиентам». Инцидент вызвал обсуждение необходимости более надёжной обработки ошибок, улучшения процедур тестирования и диверсификации облачных зависимостей для предотвращения подобных сбоев в будущем.

Source:

Latest News