El 12 de junio de 2025, un cambio de política aparentemente menor en la infraestructura de Google Cloud desencadenó un fallo en cascada que dejó fuera de servicio grandes partes de internet durante varias horas, afectando a millones de usuarios y empresas en todo el mundo.
El incidente comenzó a las 10:51 AM PDT, cuando una actualización de política con campos en blanco no previstos se insertó en las bases de datos regionales Spanner de Google Cloud. Esto activó un código latente que se había desplegado el 29 de mayo pero que nunca se había probado adecuadamente. El código, que carecía de un manejo de errores apropiado y de protección mediante feature flags, se encontró con valores nulos que no podía procesar, provocando el fallo de los binarios de Service Control de Google en múltiples regiones de manera simultánea.
El fallo afectó específicamente a la funcionalidad de Gestión de Identidad y Acceso (IAM) de Google, responsable de autorizar las solicitudes y determinar qué acciones pueden realizar los usuarios y servicios autenticados. Al fallar los servicios de IAM, la interrupción se propagó rápidamente a componentes críticos de la nube como App Engine, Firestore, Cloud SQL, BigQuery y Memorystore.
El impacto de la caída fue amplio, afectando tanto a los propios servicios de Google como a plataformas de terceros. Las aplicaciones de Google Workspace, incluyendo Gmail, Drive, Docs y Meet, quedaron inaccesibles. Grandes plataformas de consumo como Spotify (con aproximadamente 46.000 usuarios afectados), Discord, Snapchat y Twitch sufrieron importantes periodos de inactividad. Los servicios de inteligencia artificial fueron especialmente golpeados, con OpenAI reportando problemas de autenticación, mientras que plataformas de programación asistida por IA como Cursor y Replit quedaron completamente fuera de línea.
El equipo de Ingeniería de Fiabilidad del Sitio (Site Reliability Engineering) de Google identificó la causa raíz en 10 minutos y comenzó a implementar medidas de mitigación en 40 minutos. Sin embargo, la recuperación total llevó bastante más tiempo, con algunas regiones (especialmente us-central1) experimentando interrupciones prolongadas de hasta tres horas. El incidente finalizó oficialmente a las 20:49 UTC (13:49 PDT).
Esta caída sirve como un recordatorio contundente de la creciente dependencia de internet en la infraestructura en la nube. Como reconoció Thomas Kurian, responsable de Google Cloud: "Lamentamos la interrupción que esto causó a nuestros clientes". El incidente ha abierto el debate sobre la necesidad de un manejo de errores más robusto, mejores procedimientos de pruebas y una mayor diversificación de las dependencias en la nube para evitar fallos similares en el futuro.