menu
close

Fallo en Google Cloud IAM paraliza servicios globales de internet

Una falla crítica en el sistema de Gestión de Identidad y Acceso (IAM) de Google Cloud el 12 de junio de 2025 provocó interrupciones generalizadas en los servicios de internet a nivel mundial. La caída, causada por una actualización de software con manejo de errores insuficiente, afectó a más de 50 servicios de Google Cloud en más de 40 regiones. Plataformas importantes como Spotify, Discord, OpenAI y Cloudflare sufrieron tiempos de inactividad significativos, lo que pone de manifiesto la creciente dependencia de la infraestructura crítica en los servicios en la nube.
Fallo en Google Cloud IAM paraliza servicios globales de internet

El 12 de junio de 2025, un cambio de política aparentemente menor en la infraestructura de Google Cloud desencadenó una falla en cascada que dejó fuera de servicio grandes porciones de internet durante varias horas, afectando a millones de usuarios y empresas en todo el mundo.

El incidente comenzó a las 10:51 AM PDT, cuando una actualización de política con campos en blanco no intencionados fue insertada en las bases de datos regionales Spanner de Google Cloud. Esto activó un código latente que había sido desplegado el 29 de mayo pero nunca fue probado adecuadamente. Dicho código, que carecía de un manejo de errores apropiado y protección mediante feature flags, se encontró con valores nulos que no podía procesar, provocando el fallo de los binarios de Service Control de Google en múltiples regiones de manera simultánea.

La falla impactó específicamente la funcionalidad de Gestión de Identidad y Acceso (IAM) de Google, responsable de autorizar solicitudes y determinar qué acciones pueden realizar los usuarios y servicios autenticados. A medida que los servicios de IAM fallaron, la interrupción se propagó rápidamente a componentes críticos de la nube como App Engine, Firestore, Cloud SQL, BigQuery y Memorystore.

El impacto de la caída fue extenso, afectando tanto a los propios servicios de Google como a plataformas de terceros. Aplicaciones de Google Workspace como Gmail, Drive, Docs y Meet quedaron inaccesibles. Plataformas de consumo masivo como Spotify (con aproximadamente 46,000 usuarios afectados), Discord, Snapchat y Twitch experimentaron tiempos de inactividad significativos. Los servicios de inteligencia artificial fueron especialmente afectados, con OpenAI reportando problemas de autenticación, mientras que plataformas de programación asistida por IA como Cursor y Replit quedaron completamente fuera de línea.

El equipo de Ingeniería de Fiabilidad de Sitio (SRE) de Google identificó la causa raíz en 10 minutos e inició las mitigaciones en 40 minutos. Sin embargo, la recuperación total tomó considerablemente más tiempo, con algunas regiones (particularmente us-central1) experimentando interrupciones prolongadas de hasta tres horas. El incidente concluyó oficialmente a las 20:49 UTC (1:49 PM PDT).

Esta caída sirve como un recordatorio contundente de la creciente dependencia de internet en la infraestructura en la nube. Como reconoció Thomas Kurian, director de Google Cloud: "Lamentamos la interrupción que esto causó a nuestros clientes". El incidente ha generado discusiones sobre la necesidad de un manejo de errores más robusto, mejores procedimientos de prueba y una diversificación de dependencias en la nube para evitar fallas similares en el futuro.

Source:

Latest News