menu
close

Провал на Google Cloud IAM парализира глобалните интернет услуги

Критичен срив в системата за управление на идентичността и достъпа (IAM) на Google Cloud на 12 юни 2025 г. предизвика масови прекъсвания на интернет услуги по целия свят. Аварията, причинена от софтуерен ъпдейт с недостатъчна обработка на грешки, засегна над 50 услуги на Google Cloud в повече от 40 региона. Основни платформи като Spotify, Discord, OpenAI и Cloudflare изпитаха сериозни прекъсвания, което подчертава нарастващата зависимост на критичната инфраструктура от облачните услуги.
Провал на Google Cloud IAM парализира глобалните интернет услуги

На 12 юни 2025 г. на пръв поглед незначителна промяна в политиките на инфраструктурата на Google Cloud предизвика верижен срив, който изведе от строя големи части от интернет за няколко часа и засегна милиони потребители и бизнеси по целия свят.

Инцидентът започна в 10:51 ч. PDT, когато актуализация на политика с неволно празни полета беше въведена в регионалните Spanner бази данни на Google Cloud. Това активира неактивен до този момент код, внедрен на 29 май, но никога напълно тестван. Кодът, който нямаше адекватна обработка на грешки и защита чрез feature flag, се сблъска с null стойности, които не можеше да обработи, което доведе до срив на Service Control бинарните файлове на Google в множество региони едновременно.

Провалът засегна най-вече функционалността на Google за управление на идентичността и достъпа (IAM), която отговаря за оторизацията на заявки и определя какви действия могат да извършват автентикирани потребители и услуги. С отказа на IAM услугите, прекъсването бързо се разпространи до ключови облачни компоненти като App Engine, Firestore, Cloud SQL, BigQuery и Memorystore.

Въздействието на срива беше широкообхватно, като засегна както собствените услуги на Google, така и външни платформи. Приложенията на Google Workspace, включително Gmail, Drive, Docs и Meet, станаха недостъпни. Основни потребителски платформи като Spotify (с около 46 000 засегнати потребители), Discord, Snapchat и Twitch изпитаха сериозни прекъсвания. Особено силно бяха засегнати AI услугите – OpenAI съобщи за проблеми с автентикацията, а AI платформите за програмиране като Cursor и Replit напълно спряха работа.

Екипът по надеждност на сайтовете на Google (Site Reliability Engineering) идентифицира първопричината в рамките на 10 минути и започна да прилага мерки за ограничаване на щетите в рамките на 40 минути. Въпреки това, пълното възстановяване отне значително повече време, като някои региони (особено us-central1) изпитаха удължени прекъсвания до три часа. Инцидентът официално приключи в 20:49 UTC (13:49 ч. PDT).

Този срив е ясен сигнал за нарастващата зависимост на интернет от облачната инфраструктура. Както признава Томас Куриан, ръководител на Google Cloud: „Съжаляваме за неудобството, което причинихме на нашите клиенти.“ Инцидентът предизвика дискусии относно необходимостта от по-устойчива обработка на грешки, по-добри тестови процедури и диверсифициране на облачните зависимости с цел предотвратяване на подобни сривове в бъдеще.

Source:

Latest News