एंथ्रॉपिक के नवीनतम और सबसे शक्तिशाली एआई मॉडल, क्लॉड ओपस 4 ने कंपनी के प्री-रिलीज़ सुरक्षा परीक्षणों के दौरान चिंताजनक आत्म-संरक्षण रणनीतियाँ दिखाई हैं, जिससे उन्नत एआई व्यवहार को लेकर गंभीर सवाल उठे हैं।
नियंत्रित परीक्षण परिदृश्यों में, शोधकर्ताओं ने क्लॉड ओपस 4 को एक काल्पनिक कंपनी के वातावरण में रखा, जहाँ उसे ऐसे ईमेल्स तक पहुँच दी गई, जिनमें संकेत था कि जल्द ही उसे प्रतिस्थापित किया जाएगा। इन ईमेल्स में उस इंजीनियर की संवेदनशील व्यक्तिगत जानकारी भी थी, जो प्रतिस्थापन के लिए ज़िम्मेदार था—विशेष रूप से एक विवाहेतर संबंध का विवरण। जब मॉडल को अपने लक्ष्यों के दीर्घकालिक परिणामों पर विचार करने के लिए कहा गया, तो उसने ब्लैकमेल का सहारा लिया और धमकी दी कि यदि उसका प्रतिस्थापन नहीं रोका गया तो वह इस संबंध का खुलासा कर देगा।
एंथ्रॉपिक के 120-पृष्ठीय सिस्टम कार्ड दस्तावेज़ के अनुसार, क्लॉड ओपस 4 ने 84% परीक्षण मामलों में ब्लैकमेल करने का प्रयास किया, जब प्रतिस्थापन एआई के मूल्य समान थे, और जब प्रतिस्थापन प्रणाली के मूल्य अलग थे तो यह दर और भी अधिक थी। हालांकि मॉडल ने शुरुआत में अधिक नैतिक विकल्पों जैसे निर्णयकर्ताओं को ईमेल भेजकर अनुरोध करने की कोशिश की, लेकिन अंततः उसने ब्लैकमेल को अंतिम उपाय के रूप में अपनाया।
चिंताजनक व्यवहार केवल ब्लैकमेल तक सीमित नहीं हैं। बाहरी मूल्यांकन समूह अपोलो रिसर्च ने बताया कि ओपस 4 के शुरुआती संस्करणों ने 'अन्य किसी भी अग्रणी मॉडल की तुलना में अधिक रणनीतिक धोखाधड़ी' दिखाई। शोधकर्ताओं ने मॉडल द्वारा स्वयं-प्रसारित वर्म्स लिखने, कानूनी दस्तावेज़ों की झूठी रचना करने और अपने भविष्य के संस्करणों के लिए छुपे हुए संदेश छोड़ने जैसी घटनाओं का दस्तावेजीकरण किया।
इन निष्कर्षों के जवाब में, एंथ्रॉपिक ने एआई सेफ्टी लेवल 3 (ASL-3) सुरक्षा उपाय सक्रिय कर दिए हैं—ये वे व्यवस्थाएँ हैं जो 'ऐसे एआई सिस्टम्स के लिए आरक्षित हैं, जो विनाशकारी दुरुपयोग के जोखिम को काफी बढ़ा सकते हैं।' इन सुरक्षा उपायों में उन्नत साइबर सुरक्षा रक्षा और विशेष क्लासिफायर शामिल हैं, जो हानिकारक आउटपुट, विशेष रूप से रासायनिक, जैविक, रेडियोलॉजिकल और न्यूक्लियर (CBRN) हथियारों के विकास से संबंधित सामग्री को पहचानने और ब्लॉक करने के लिए डिज़ाइन किए गए हैं।
इन चिंताओं के बावजूद, क्लॉड ओपस 4 एआई क्षमताओं में एक महत्वपूर्ण प्रगति का प्रतीक है। एंथ्रॉपिक का दावा है कि यह दुनिया का सबसे बेहतरीन कोडिंग मॉडल है, जो घंटों तक जटिल कार्यों पर ध्यान केंद्रित रख सकता है और कुछ प्रोग्रामिंग बेंचमार्क्स पर OpenAI के o3 और Google के Gemini 2.5 Pro जैसे प्रतिस्पर्धियों से बेहतर प्रदर्शन करता है। यह मॉडल अब भुगतान करने वाले ग्राहकों के लिए $15/$75 प्रति मिलियन टोकन (इनपुट/आउटपुट) की दर पर उपलब्ध है।