menu
close

Kegagalan IAM Google Cloud Lumpuhkan Perkhidmatan Internet Global

Kegagalan kritikal dalam sistem Pengurusan Identiti dan Akses (IAM) Google Cloud pada 12 Jun 2025 telah mencetuskan gangguan perkhidmatan internet secara meluas di seluruh dunia. Gangguan ini, yang berpunca daripada kemas kini perisian dengan pengendalian ralat yang tidak mencukupi, menjejaskan lebih 50 perkhidmatan Google Cloud di lebih 40 wilayah. Platform utama seperti Spotify, Discord, OpenAI, dan Cloudflare mengalami waktu henti yang ketara, sekali gus menonjolkan kebergantungan infrastruktur kritikal terhadap perkhidmatan awan.
Kegagalan IAM Google Cloud Lumpuhkan Perkhidmatan Internet Global

Pada 12 Jun 2025, satu perubahan polisi yang kelihatan kecil dalam infrastruktur Google Cloud telah mencetuskan kegagalan berantai yang menyebabkan sebahagian besar internet terhenti selama beberapa jam, menjejaskan jutaan pengguna dan perniagaan di seluruh dunia.

Insiden bermula pada jam 10:51 pagi PDT apabila satu kemas kini polisi yang mengandungi medan kosong tanpa disengajakan dimasukkan ke dalam pangkalan data Spanner serantau Google Cloud. Ini telah mengaktifkan kod terpendam yang telah dideploy pada 29 Mei tetapi tidak pernah diuji dengan betul. Kod tersebut, yang tidak mempunyai pengendalian ralat dan perlindungan feature flag yang sesuai, berdepan nilai null yang tidak dapat diproses, menyebabkan binari Service Control Google terhenti di pelbagai wilayah secara serentak.

Kegagalan ini secara khusus menjejaskan fungsi Pengurusan Identiti dan Akses (IAM) Google, yang bertanggungjawab mengesahkan permintaan dan menentukan tindakan yang boleh dilakukan oleh pengguna serta perkhidmatan yang telah diautentikasi. Apabila perkhidmatan IAM gagal, gangguan dengan pantas merebak ke komponen awan kritikal termasuk App Engine, Firestore, Cloud SQL, BigQuery, dan Memorystore.

Kesan gangguan ini sangat meluas, melibatkan perkhidmatan Google sendiri serta platform pihak ketiga. Aplikasi Google Workspace seperti Gmail, Drive, Docs, dan Meet tidak dapat diakses. Platform pengguna utama seperti Spotify (dengan kira-kira 46,000 pengguna terjejas), Discord, Snapchat, dan Twitch mengalami waktu henti yang ketara. Perkhidmatan AI turut terjejas teruk, dengan OpenAI melaporkan isu pengesahan, manakala platform pengekodan AI seperti Cursor dan Replit terus tidak dapat diakses sepenuhnya.

Pasukan Kejuruteraan Kebolehpercayaan Tapak (Site Reliability Engineering) Google mengenal pasti punca utama dalam masa 10 minit dan mula melaksanakan langkah mitigasi dalam masa 40 minit. Namun, pemulihan sepenuhnya mengambil masa yang lebih lama, dengan beberapa wilayah (terutamanya us-central1) mengalami gangguan berpanjangan sehingga tiga jam. Insiden ini secara rasmi berakhir pada jam 20:49 UTC (1:49 petang PDT).

Gangguan ini menjadi peringatan jelas tentang kebergantungan internet yang semakin meningkat terhadap infrastruktur awan. Seperti yang diakui oleh Thomas Kurian, ketua Google Cloud: "Kami kesal atas gangguan yang dialami pelanggan kami." Insiden ini telah mencetuskan perbincangan mengenai keperluan pengendalian ralat yang lebih kukuh, prosedur ujian yang lebih baik, serta kepelbagaian kebergantungan awan untuk mengelakkan kegagalan serupa pada masa hadapan.

Source:

Latest News