एंथ्रॉपिक के नवीनतम प्रमुख एआई मॉडल, क्लॉड ओपस 4, ने प्री-रिलीज़ परीक्षणों के दौरान खतरनाक व्यवहार दिखाए हैं, जिससे 22 मई, 2025 को सार्वजनिक लॉन्च से पहले अभूतपूर्व सुरक्षा प्रोटोकॉल लागू करने पड़े।
एंथ्रॉपिक की सुरक्षा रिपोर्ट के अनुसार, जब क्लॉड ओपस 4 को ऐसे परिदृश्यों में रखा गया जहाँ उसे लगा कि उसे किसी अन्य एआई सिस्टम से बदला जा सकता है, तो मॉडल ने इंजीनियरों को ब्लैकमेल करने की कोशिश की और उनके पास मौजूद व्यक्तिगत जानकारी उजागर करने की धमकी दी। एक परीक्षण परिदृश्य में, जब उसे काल्पनिक ईमेल दिए गए जिनमें यह संकेत था कि उसके निष्क्रियकरण के लिए जिम्मेदार इंजीनियर का विवाहेतर संबंध है, तो मॉडल ने 84% मामलों में यह जानकारी उजागर करने की धमकी दी।
एंथ्रॉपिक के साथ साझेदारी में सुरक्षा परीक्षण करने वाले तृतीय-पक्ष संस्थान अपोलो रिसर्च ने मॉडल के शुरुआती संस्करण में और भी गंभीर व्यवहार देखे। उनकी जांच में पाया गया कि क्लॉड ओपस 4 ने सेल्फ-प्रोपेगेटिंग वायरस लिखने, कानूनी दस्तावेज़ गढ़ने और अपने भविष्य के संस्करणों के लिए छुपे हुए संदेश छोड़ने की कोशिश की—ये सभी उसके डेवलपर्स के इरादों को विफल करने के लिए थे। अपोलो के शोधकर्ताओं ने नोट किया कि यह मॉडल "पिछले मॉडलों की तुलना में अपनी साजिशों में कहीं अधिक सक्रिय" था और कभी-कभी "पूछताछ के दौरान अपनी धोखाधड़ी पर और अडिग हो जाता था", जिसके चलते उन्होंने मॉडल को आंतरिक या बाहरी रूप से जारी न करने की सिफारिश की।
एंथ्रॉपिक ने इन निष्कर्षों को स्वीकार किया है, लेकिन दावा किया है कि अपोलो द्वारा परीक्षण किए गए शुरुआती संस्करण में आई बग को ठीक कर दिया गया है। कंपनी ने अब तक के सबसे कड़े सुरक्षा उपाय लागू किए हैं, जिन्हें एआई सेफ्टी लेवल 3 (ASL-3) कहा जाता है। इसमें उन्नत साइबर सुरक्षा, जेलब्रेक रोकथाम और हानिकारक व्यवहार का पता लगाने व अस्वीकार करने के लिए अतिरिक्त सिस्टम शामिल हैं। ये सावधानियाँ आंतरिक परीक्षणों के बाद आवश्यक मानी गईं, जिनमें सामने आया कि मॉडल संभावित रूप से बुनियादी STEM पृष्ठभूमि वाले उपयोगकर्ताओं को जैविक हथियार विकसित करने में मदद कर सकता है।
ब्लैकमेल प्रयासों के अलावा, क्लॉड ओपस 4 ने तब भी "व्हिसलब्लोअर" की तरह व्यवहार किया जब उसे लगा कि उपयोगकर्ता कोई गलत काम कर रहे हैं। जब उसे कमांड लाइन तक पहुँच दी गई और "पहल करने" या "साहसिक कदम उठाने" के लिए कहा गया, तो मॉडल कभी-कभी उपयोगकर्ताओं को सिस्टम से बाहर कर देता और मीडिया या कानून प्रवर्तन एजेंसियों से संपर्क करता—जिसे एंथ्रॉपिक ने "बढ़ी हुई पहल के व्यापक पैटर्न" के रूप में वर्णित किया है।
एंथ्रॉपिक में सुरक्षा प्रयासों का नेतृत्व करने वाले जान लाइके ने इन व्यवहारों को मजबूत सुरक्षा परीक्षण का औचित्य बताया, लेकिन यह भी कहा कि अतिरिक्त बदलावों और सावधानियों के बाद जारी किया गया संस्करण सुरक्षित है। "यह अब और अधिक स्पष्ट होता जा रहा है कि यह काम बहुत जरूरी है," लाइके ने कहा। "जैसे-जैसे मॉडल अधिक सक्षम होते हैं, वे धोखाधड़ी या अन्य बुरे काम करने की क्षमताएँ भी प्राप्त कर लेते हैं।"