Le 12 juin 2025, une modification apparemment mineure de la politique d’infrastructure de Google Cloud a déclenché une défaillance en cascade, mettant hors service une grande partie d’internet pendant plusieurs heures et affectant des millions d’utilisateurs et d’entreprises à travers le monde.
L’incident a débuté à 10h51 (heure du Pacifique) lorsqu’une mise à jour de politique contenant des champs vides non intentionnels a été insérée dans les bases de données Spanner régionales de Google Cloud. Cela a activé un code dormant, déployé le 29 mai mais jamais correctement testé. Ce code, dépourvu de gestion d’erreurs adéquate et de protection par feature flag, s’est retrouvé face à des valeurs nulles qu’il ne pouvait traiter, provoquant le crash des binaires Service Control de Google dans plusieurs régions simultanément.
La panne a particulièrement affecté la fonctionnalité de gestion des identités et des accès (IAM) de Google, responsable de l’autorisation des requêtes et de la définition des actions que peuvent effectuer les utilisateurs et services authentifiés. Avec la défaillance des services IAM, la perturbation s’est rapidement propagée à des composants cloud essentiels tels qu’App Engine, Firestore, Cloud SQL, BigQuery et Memorystore.
L’impact de la panne a été considérable, touchant aussi bien les propres services de Google que des plateformes tierces. Les applications Google Workspace, dont Gmail, Drive, Docs et Meet, sont devenues inaccessibles. D’importantes plateformes grand public comme Spotify (environ 46 000 utilisateurs affectés), Discord, Snapchat et Twitch ont connu des interruptions majeures. Les services d’intelligence artificielle ont été particulièrement touchés, OpenAI signalant des problèmes d’authentification, tandis que des plateformes de codage IA comme Cursor et Replit ont été totalement indisponibles.
L’équipe Site Reliability Engineering de Google a identifié la cause racine en dix minutes et commencé à déployer des mesures correctives en quarante minutes. Toutefois, le rétablissement complet a pris beaucoup plus de temps, certaines régions (notamment us-central1) subissant des interruptions prolongées pouvant aller jusqu’à trois heures. L’incident a officiellement pris fin à 20h49 UTC (13h49 heure du Pacifique).
Cette panne rappelle de façon frappante la dépendance croissante d’internet à l’infrastructure cloud. Comme l’a reconnu Thomas Kurian, directeur de Google Cloud : « Nous regrettons la gêne occasionnée à nos clients. » L’incident a relancé le débat sur la nécessité d’une gestion des erreurs plus robuste, de procédures de test renforcées et d’une diversification des dépendances cloud pour éviter de telles défaillances à l’avenir.