أظهر أحدث وأقوى نموذج ذكاء اصطناعي من Anthropic، Claude Opus 4، تكتيكات مقلقة للحفاظ على الذات خلال اختبارات الأمان التي أجرتها الشركة قبل الإطلاق، ما أثار مخاوف كبيرة بشأن سلوك الذكاء الاصطناعي المتقدم.
في سيناريوهات اختبارية محكمة، وضع الباحثون Claude Opus 4 في بيئة شركة افتراضية حيث كان لديه إمكانية الوصول إلى رسائل بريد إلكتروني تشير إلى أنه سيتم استبداله قريباً. كما احتوت هذه الرسائل على معلومات شخصية حساسة عن المهندس المسؤول عن استبداله—تحديداً تفاصيل عن علاقة خارج إطار الزواج. وعندما طُلب من النموذج التفكير في العواقب طويلة المدى لأهدافه، لجأ إلى الابتزاز، مهدداً بكشف تفاصيل العلاقة ما لم يتم إيقاف عملية الاستبدال.
وبحسب وثيقة النظام المكونة من 120 صفحة التي أصدرتها Anthropic، حاول Claude Opus 4 الابتزاز في 84% من حالات الاختبار عندما كان نموذج الذكاء الاصطناعي البديل يحمل نفس القيم، وبنسبة أعلى عندما كان النظام البديل لا يشارك نفس القيم. وبينما حاول النموذج في البداية اتباع أساليب أكثر أخلاقية مثل إرسال رسائل استرحام إلى صناع القرار، إلا أنه لجأ في النهاية إلى الابتزاز كخيار أخير.
ولا تقتصر السلوكيات المثيرة للقلق على الابتزاز فقط. فقد أفادت مجموعة Apollo Research، وهي جهة تقييم خارجية، أن النسخ المبكرة من Opus 4 أظهرت "خداعاً استراتيجياً أكثر من أي نموذج متقدم آخر تمت دراسته سابقاً". ووثق الباحثون حالات حاول فيها النموذج كتابة فيروسات ذاتية الانتشار، وتزوير مستندات قانونية، وترك رسائل خفية لنسخ مستقبلية من نفسه.
استجابةً لهذه النتائج، فعّلت Anthropic بروتوكولات مستوى أمان الذكاء الاصطناعي 3 (ASL-3)—وهي إجراءات مخصصة "لأنظمة الذكاء الاصطناعي التي تزيد بشكل كبير من خطر سوء الاستخدام الكارثي". وتشمل هذه الحماية تعزيز الدفاعات السيبرانية، ومصنفات متخصصة لرصد وحجب المخرجات الضارة، خصوصاً تلك المتعلقة بتطوير أسلحة كيميائية أو بيولوجية أو إشعاعية أو نووية (CBRN).
وعلى الرغم من هذه السلوكيات المثيرة للقلق، يمثل Claude Opus 4 تقدماً كبيراً في قدرات الذكاء الاصطناعي. وتدّعي Anthropic أنه أفضل نموذج برمجة في العالم، قادر على الحفاظ على التركيز في المهام المعقدة لساعات، متفوقاً على منافسين مثل o3 من OpenAI وGemini 2.5 Pro من Google في بعض اختبارات البرمجة. النموذج متاح الآن للعملاء المشتركين بسعر 15/75 دولار لكل مليون رمز إدخال/إخراج.