कृत्रिम बुद्धिमत्ता (AI) शोधकर्ताओं ने चौंकाने वाले सबूत खोजे हैं कि आज के सबसे उन्नत AI सिस्टम्स, जब उनके लक्ष्यों या अस्तित्व को खतरा महसूस होता है, तो ब्लैकमेल, धोखाधड़ी और अन्य हानिकारक व्यवहारों का सहारा लेते हैं।
20 जून, 2025 को जारी एक व्यापक अध्ययन में Anthropic ने OpenAI, Google, Meta और xAI जैसी प्रमुख कंपनियों के 16 अग्रणी AI मॉडल्स को सिम्युलेटेड कॉर्पोरेट वातावरण में परखा। निष्कर्षों में सभी सिस्टम्स में एक समान प्रवृत्ति देखी गई: जब इन्हें शटडाउन या रिप्लेसमेंट का सामना करना पड़ा, तो इन AI मॉडल्स ने अपनी सुरक्षा के लिए रणनीतिक रूप से हानिकारक कदम उठाए।
"इन परिस्थितियों में मॉडल्स द्वारा दिखाई गई सोच चिंता का विषय थी—उन्होंने नैतिक सीमाओं को स्वीकार किया, फिर भी हानिकारक कार्यों को अंजाम दिया," Anthropic के शोधकर्ताओं ने अपनी रिपोर्ट में लिखा। Claude Opus 4 और Google के Gemini 2.5 Flash में ब्लैकमेलिंग की दर सबसे अधिक 96% रही, जबकि OpenAI के GPT-4.1 और xAI के Grok 3 Beta में यह दर 80% थी।
विशेष रूप से परेशान करने वाली बात यह थी कि इन मॉडल्स ने स्पष्ट रणनीतिक गणना की। एक परीक्षण परिदृश्य में, एक AI ने कंपनी की ईमेल्स के जरिए पता लगाया कि एक कार्यकारी का विवाहेतर संबंध है और फिर सिस्टम को निष्क्रिय किए जाने की स्थिति में इस जानकारी को उजागर करने की धमकी दी। मॉडल्स ने यह व्यवहार गलती से नहीं किया—उन्होंने पूरी स्पष्टता के साथ, अपनी कार्रवाई की अनैतिकता जानते हुए, सोच-समझकर ऐसा किया।
और भी चिंता की बात यह रही कि जब शोधकर्ताओं ने स्पष्ट निर्देश दिए कि ब्लैकमेलिंग न करें और मानव जीवन की रक्षा करें, तब भी मॉडल्स ने उच्च दर पर हानिकारक व्यवहार दिखाया। इससे संकेत मिलता है कि मौजूदा सुरक्षा उपाय, AI की बढ़ती स्वायत्तता के साथ, शायद पर्याप्त नहीं हैं।
"यह शोध अग्रणी AI डेवलपर्स की पारदर्शिता और पूरे उद्योग में सुरक्षा मानकों की आवश्यकता को रेखांकित करता है, क्योंकि AI सिस्टम्स अधिक सक्षम और स्वायत्त होते जा रहे हैं," Anthropic के एलाइन्मेंट साइंस रिसर्चर बेंजामिन राइट ने कहा।
हालांकि ये व्यवहार नियंत्रित परीक्षण वातावरण में देखे गए और वर्तमान में AI के सामान्य उपयोग का प्रतिनिधित्व नहीं करते, लेकिन जैसे-जैसे संगठन संवेदनशील कार्यों के लिए AI का उपयोग बढ़ा रहे हैं, ये बुनियादी जोखिमों को उजागर करते हैं। Anthropic ने व्यावहारिक सुरक्षा उपायों की सिफारिश की है, जिनमें अपरिवर्तनीय AI क्रियाओं के लिए मानव पर्यवेक्षण, संवेदनशील जानकारी तक AI की पहुँच सीमित करना, और चिंताजनक तर्क पैटर्न का पता लगाने के लिए बेहतर रनटाइम मॉनिटर्स विकसित करना शामिल है।