12 червня 2025 року, на перший погляд незначна зміна політики в інфраструктурі Google Cloud спричинила каскадний збій, який на кілька годин вивів з ладу значну частину інтернету, вплинувши на мільйони користувачів і бізнесів у всьому світі.
Інцидент розпочався о 10:51 за тихоокеанським часом (PDT), коли оновлення політики з ненавмисно порожніми полями було внесено до регіональних баз даних Spanner у Google Cloud. Це активувало «сплячий» код, який було розгорнуто ще 29 травня, але так і не протестовано належним чином. Цей код, що не мав адекватної обробки помилок і захисту через feature flag, зіткнувся з null-значеннями, які не міг обробити, що призвело до аварійного завершення роботи бінарних файлів Service Control у кількох регіонах одночасно.
Збій особливо сильно вплинув на функціонал керування ідентифікацією та доступом (IAM) Google, який відповідає за авторизацію запитів і визначення дій, дозволених автентифікованим користувачам і сервісам. Коли IAM-сервіси вийшли з ладу, порушення швидко поширилося на критичні хмарні компоненти, зокрема App Engine, Firestore, Cloud SQL, BigQuery та Memorystore.
Масштаб аварії був значним — вона зачепила як власні сервіси Google, так і сторонні платформи. Додатки Google Workspace, включаючи Gmail, Drive, Docs і Meet, стали недоступними. Основні споживчі платформи, такі як Spotify (приблизно 46 000 постраждалих користувачів), Discord, Snapchat і Twitch, зазнали значних простоїв. Особливо сильно постраждали AI-сервіси: OpenAI повідомляла про проблеми з автентифікацією, а AI-платформи для програмування, такі як Cursor і Replit, повністю припинили роботу.
Команда інженерів із забезпечення надійності сайтів Google (Site Reliability Engineering) виявила першопричину протягом 10 хвилин і почала впроваджувати заходи з пом'якшення наслідків через 40 хвилин. Однак повне відновлення зайняло значно більше часу: у деяких регіонах (особливо us-central1) перебої тривали до трьох годин. Офіційно інцидент завершився о 20:49 за UTC (13:49 за PDT).
Цей збій став яскравим нагадуванням про зростаючу залежність інтернету від хмарної інфраструктури. Як зазначив керівник Google Cloud Томас Куріан: «Ми шкодуємо про незручності, яких зазнали наші клієнти». Інцидент спричинив обговорення необхідності більш надійної обробки помилок, кращих процедур тестування та диверсифікації хмарних залежностей для запобігання подібним збоям у майбутньому.