Le 12 juin 2025, un changement de politique apparemment mineur dans l’infrastructure de Google Cloud a déclenché une défaillance en cascade qui a paralysé une grande partie d’Internet pendant plusieurs heures, affectant des millions d’utilisateurs et d’entreprises à travers le monde.
L’incident a débuté à 10 h 51 (heure du Pacifique) lorsqu’une mise à jour de politique contenant des champs vides non intentionnels a été insérée dans les bases de données Spanner régionales de Google Cloud. Cela a activé du code dormant, déployé le 29 mai mais jamais correctement testé. Ce code, dépourvu d’une gestion d’erreurs adéquate et de mécanismes de contrôle (feature flag), a rencontré des valeurs nulles impossibles à traiter, provoquant le plantage des binaires Service Control de Google dans plusieurs régions simultanément.
La panne a particulièrement touché la fonctionnalité de gestion des identités et des accès (IAM) de Google, responsable de l’autorisation des requêtes et de la gestion des actions permises aux utilisateurs et services authentifiés. Avec la défaillance des services IAM, la perturbation s’est rapidement propagée à des composantes infonuagiques essentielles, dont App Engine, Firestore, Cloud SQL, BigQuery et Memorystore.
L’impact de la panne a été considérable, touchant tant les services de Google que des plateformes tierces. Les applications Google Workspace, dont Gmail, Drive, Docs et Meet, sont devenues inaccessibles. D’importantes plateformes grand public comme Spotify (environ 46 000 utilisateurs touchés), Discord, Snapchat et Twitch ont connu des interruptions majeures. Les services d’intelligence artificielle ont été particulièrement affectés, OpenAI signalant des problèmes d’authentification, tandis que des plateformes de codage IA comme Cursor et Replit ont été complètement hors ligne.
L’équipe d’ingénierie de la fiabilité des sites (Site Reliability Engineering) de Google a identifié la cause principale en moins de 10 minutes et a commencé à déployer des mesures d’atténuation dans les 40 minutes suivantes. Toutefois, le rétablissement complet a pris beaucoup plus de temps, certaines régions (notamment us-central1) ayant subi des interruptions prolongées pouvant aller jusqu’à trois heures. L’incident a officiellement pris fin à 20 h 49 UTC (13 h 49, heure du Pacifique).
Cette panne rappelle brutalement la dépendance croissante d’Internet envers l’infrastructure infonuagique. Comme l’a reconnu Thomas Kurian, chef de Google Cloud : « Nous regrettons les désagréments causés à nos clients. » L’incident a suscité des discussions sur la nécessité d’une gestion d’erreurs plus robuste, de procédures de tests renforcées et d’une diversification des dépendances infonuagiques pour éviter que de telles défaillances ne se reproduisent à l’avenir.