No dia 12 de junho de 2025, uma alteração aparentemente menor nas políticas da infraestrutura da Google Cloud desencadeou uma falha em cascata que deixou grandes partes da internet inoperacionais durante várias horas, afetando milhões de utilizadores e empresas em todo o mundo.
O incidente teve início às 10h51 (PDT), quando uma atualização de política contendo campos em branco não intencionais foi inserida nas bases de dados regionais Spanner da Google Cloud. Esta ação ativou código latente que tinha sido implementado a 29 de maio, mas que nunca foi devidamente testado. O código, sem mecanismos adequados de tratamento de erros e sem proteção por feature flag, deparou-se com valores nulos impossíveis de processar, levando à falha dos binários do Service Control da Google em várias regiões em simultâneo.
A falha afetou especificamente a funcionalidade de Gestão de Identidade e Acessos (IAM) da Google, responsável por autorizar pedidos e determinar as ações que utilizadores e serviços autenticados podem executar. Com a indisponibilidade dos serviços IAM, a perturbação rapidamente propagou-se a componentes cloud críticos, incluindo App Engine, Firestore, Cloud SQL, BigQuery e Memorystore.
O impacto da interrupção foi extenso, afetando tanto serviços próprios da Google como plataformas de terceiros. Aplicações do Google Workspace, como Gmail, Drive, Docs e Meet, ficaram inacessíveis. Plataformas de grande consumo como o Spotify (com cerca de 46.000 utilizadores afetados), Discord, Snapchat e Twitch registaram períodos significativos de inatividade. Os serviços de inteligência artificial foram particularmente afetados, com a OpenAI a reportar problemas de autenticação, enquanto plataformas de programação assistida por IA como Cursor e Replit ficaram totalmente offline.
A equipa de Engenharia de Fiabilidade de Site (SRE) da Google identificou a causa raiz em 10 minutos e iniciou as medidas de mitigação ao fim de 40 minutos. No entanto, a recuperação total demorou consideravelmente mais tempo, com algumas regiões (nomeadamente us-central1) a registarem interrupções prolongadas até três horas. O incidente foi oficialmente dado como resolvido às 20h49 UTC (13h49 PDT).
Esta falha serve como um alerta claro para a crescente dependência da internet nas infraestruturas cloud. Como reconheceu Thomas Kurian, responsável pela Google Cloud: "Lamentamos profundamente a perturbação causada aos nossos clientes." O incidente motivou discussões sobre a necessidade de um tratamento de erros mais robusto, melhores procedimentos de teste e uma maior diversificação das dependências cloud para evitar falhas semelhantes no futuro.