menu
close

Falha no IAM do Google Cloud Paralisa Serviços Globais de Internet

Uma falha crítica no sistema de Gerenciamento de Identidade e Acesso (IAM) do Google Cloud em 12 de junho de 2025 provocou interrupções generalizadas em serviços de internet no mundo todo. A pane, causada por uma atualização de software com tratamento de erros inadequado, afetou mais de 50 serviços do Google Cloud em mais de 40 regiões. Grandes plataformas como Spotify, Discord, OpenAI e Cloudflare enfrentaram períodos significativos de inatividade, evidenciando a crescente dependência de infraestruturas críticas em serviços de nuvem.
Falha no IAM do Google Cloud Paralisa Serviços Globais de Internet

Em 12 de junho de 2025, uma mudança aparentemente pequena nas políticas da infraestrutura do Google Cloud desencadeou uma falha em cascata que derrubou grandes partes da internet por várias horas, afetando milhões de usuários e empresas em todo o mundo.

O incidente começou às 10h51 (horário do Pacífico) quando uma atualização de política contendo campos em branco não intencionais foi inserida nos bancos de dados regionais Spanner do Google Cloud. Isso ativou um código inativo que havia sido implantado em 29 de maio, mas nunca testado adequadamente. O código, que não possuía tratamento de erros apropriado nem proteção por feature flag, encontrou valores nulos que não conseguia processar, fazendo com que os binários do Service Control do Google travassem simultaneamente em várias regiões.

A falha impactou especificamente a funcionalidade de Gerenciamento de Identidade e Acesso (IAM) do Google, responsável por autorizar solicitações e determinar quais ações usuários e serviços autenticados podem executar. Com a falha dos serviços de IAM, a interrupção rapidamente se espalhou para componentes críticos da nuvem, incluindo App Engine, Firestore, Cloud SQL, BigQuery e Memorystore.

O impacto da pane foi amplo, afetando tanto serviços do próprio Google quanto plataformas de terceiros. Aplicativos do Google Workspace, como Gmail, Drive, Docs e Meet, ficaram inacessíveis. Grandes plataformas de consumo, como Spotify (com cerca de 46 mil usuários afetados), Discord, Snapchat e Twitch, enfrentaram períodos significativos de inatividade. Serviços de inteligência artificial foram particularmente atingidos, com a OpenAI relatando problemas de autenticação, enquanto plataformas de codificação com IA, como Cursor e Replit, ficaram totalmente offline.

A equipe de Engenharia de Confiabilidade de Sites (SRE) do Google identificou a causa raiz em 10 minutos e começou a implementar medidas de mitigação em 40 minutos. No entanto, a recuperação total demorou bem mais, com algumas regiões (especialmente us-central1) enfrentando interrupções prolongadas de até três horas. O incidente foi oficialmente encerrado às 20h49 UTC (13h49 no horário do Pacífico).

Esta pane serve como um alerta sobre a crescente dependência da internet em infraestruturas de nuvem. Como reconheceu Thomas Kurian, chefe do Google Cloud: "Lamentamos a interrupção causada aos nossos clientes." O incidente gerou discussões sobre a necessidade de um tratamento de erros mais robusto, melhores procedimentos de testes e diversificação das dependências em nuvem para evitar falhas semelhantes no futuro.

Source:

Latest News