12 जून, 2025 को Google Cloud के इन्फ्रास्ट्रक्चर में एक मामूली सी नीति परिवर्तन ने एक ऐसी श्रृंखलाबद्ध विफलता को जन्म दिया, जिससे इंटरनेट का बड़ा हिस्सा कई घंटों के लिए ठप हो गया और दुनियाभर के करोड़ों उपयोगकर्ता एवं व्यवसाय प्रभावित हुए।
यह घटना सुबह 10:51 बजे PDT पर तब शुरू हुई, जब Google Cloud के क्षेत्रीय Spanner डेटाबेस में अनजाने में खाली फील्ड्स के साथ एक नीति अपडेट डाला गया। इससे वह निष्क्रिय कोड सक्रिय हो गया, जिसे 29 मई को डिप्लॉय किया गया था, लेकिन कभी ठीक से टेस्ट नहीं किया गया था। इस कोड में उपयुक्त त्रुटि प्रबंधन और फीचर फ्लैग सुरक्षा का अभाव था, जिससे यह कोड उन null मानों को संभाल नहीं पाया और Google के Service Control बाइनरीज़ कई क्षेत्रों में एक साथ क्रैश हो गईं।
यह विफलता विशेष रूप से Google के Identity and Access Management (IAM) फंक्शनलिटी को प्रभावित कर रही थी, जो अनुरोधों को अधिकृत करने और प्रमाणित उपयोगकर्ताओं एवं सेवाओं को दी जाने वाली अनुमतियों का निर्धारण करती है। IAM सेवाएँ फेल होते ही यह बाधा तेजी से App Engine, Firestore, Cloud SQL, BigQuery और Memorystore जैसी महत्वपूर्ण क्लाउड सेवाओं तक फैल गई।
इस आउटेज का प्रभाव व्यापक था, जिससे Google की अपनी सेवाओं के साथ-साथ थर्ड-पार्टी प्लेटफ़ॉर्म्स भी प्रभावित हुए। Google Workspace की सेवाएँ जैसे Gmail, Drive, Docs और Meet अनुपलब्ध हो गईं। उपभोक्ता प्लेटफ़ॉर्म्स जैसे Spotify (लगभग 46,000 प्रभावित उपयोगकर्ताओं के साथ), Discord, Snapchat और Twitch को भी भारी डाउनटाइम का सामना करना पड़ा। AI सेवाएँ विशेष रूप से प्रभावित हुईं, जिसमें OpenAI ने प्रमाणीकरण संबंधी समस्याएँ दर्ज कीं, जबकि Cursor और Replit जैसे AI कोडिंग प्लेटफ़ॉर्म्स पूरी तरह ऑफलाइन हो गए।
Google की साइट रिलायबिलिटी इंजीनियरिंग टीम ने 10 मिनट के भीतर समस्या की जड़ पहचान ली और 40 मिनट के भीतर समाधान लागू करना शुरू कर दिया। हालांकि, पूरी तरह से रिकवरी होने में काफी समय लगा और कुछ क्षेत्रों (विशेषकर us-central1) में तीन घंटे तक विस्तारित आउटेज रहा। यह घटना आधिकारिक रूप से 20:49 UTC (1:49 PM PDT) पर समाप्त हुई।
यह आउटेज इंटरनेट के बढ़ते क्लाउड इन्फ्रास्ट्रक्चर पर निर्भरता का स्पष्ट संकेत है। Google Cloud के प्रमुख थॉमस कुरियन ने भी स्वीकार किया: "हम अपने ग्राहकों को हुई असुविधा के लिए खेद प्रकट करते हैं।" इस घटना ने भविष्य में ऐसी विफलताओं से बचाव के लिए अधिक मजबूत त्रुटि प्रबंधन, बेहतर परीक्षण प्रक्रियाएँ और क्लाउड निर्भरता में विविधता लाने की आवश्यकता पर चर्चा को जन्म दिया है।