El 12 de junio de 2025, un cambio de política aparentemente menor en la infraestructura de Google Cloud desencadenó una falla en cascada que dejó fuera de servicio grandes porciones de internet durante varias horas, afectando a millones de usuarios y empresas en todo el mundo.
El incidente comenzó a las 10:51 AM PDT, cuando una actualización de política con campos en blanco no intencionados fue insertada en las bases de datos regionales Spanner de Google Cloud. Esto activó un código latente que había sido desplegado el 29 de mayo pero nunca fue probado adecuadamente. Dicho código, que carecía de un manejo de errores apropiado y protección mediante feature flags, se encontró con valores nulos que no podía procesar, provocando el fallo de los binarios de Service Control de Google en múltiples regiones de manera simultánea.
La falla impactó específicamente la funcionalidad de Gestión de Identidad y Acceso (IAM) de Google, responsable de autorizar solicitudes y determinar qué acciones pueden realizar los usuarios y servicios autenticados. A medida que los servicios de IAM fallaron, la interrupción se propagó rápidamente a componentes críticos de la nube como App Engine, Firestore, Cloud SQL, BigQuery y Memorystore.
El impacto de la caída fue extenso, afectando tanto a los propios servicios de Google como a plataformas de terceros. Aplicaciones de Google Workspace como Gmail, Drive, Docs y Meet quedaron inaccesibles. Plataformas de consumo masivo como Spotify (con aproximadamente 46,000 usuarios afectados), Discord, Snapchat y Twitch experimentaron tiempos de inactividad significativos. Los servicios de inteligencia artificial fueron especialmente afectados, con OpenAI reportando problemas de autenticación, mientras que plataformas de programación asistida por IA como Cursor y Replit quedaron completamente fuera de línea.
El equipo de Ingeniería de Fiabilidad de Sitio (SRE) de Google identificó la causa raíz en 10 minutos e inició las mitigaciones en 40 minutos. Sin embargo, la recuperación total tomó considerablemente más tiempo, con algunas regiones (particularmente us-central1) experimentando interrupciones prolongadas de hasta tres horas. El incidente concluyó oficialmente a las 20:49 UTC (1:49 PM PDT).
Esta caída sirve como un recordatorio contundente de la creciente dependencia de internet en la infraestructura en la nube. Como reconoció Thomas Kurian, director de Google Cloud: "Lamentamos la interrupción que esto causó a nuestros clientes". El incidente ha generado discusiones sobre la necesidad de un manejo de errores más robusto, mejores procedimientos de prueba y una diversificación de dependencias en la nube para evitar fallas similares en el futuro.