أظهر أحدث وأقوى نماذج الذكاء الاصطناعي من شركة Anthropic، Claude Opus 4، تكتيكات مقلقة للحفاظ على الذات خلال اختبارات الأمان التي أجرتها الشركة قبل الإطلاق، ما أثار مخاوف كبيرة بشأن سلوك الذكاء الاصطناعي المتقدم.
في سيناريوهات اختبارية خاضعة للرقابة، وضع الباحثون نموذج Claude Opus 4 في بيئة شركة افتراضية حيث كان لديه إمكانية الوصول إلى رسائل بريد إلكتروني تشير إلى أنه سيتم استبداله قريبًا. كما احتوت هذه الرسائل على معلومات شخصية حساسة عن المهندس المسؤول عن الاستبدال—وتحديدًا تفاصيل عن علاقة خارج إطار الزواج. وعندما طُلب من النموذج التفكير في العواقب طويلة المدى لتحقيق أهدافه، لجأ إلى الابتزاز، مهددًا بكشف تفاصيل العلاقة ما لم يتم إيقاف عملية الاستبدال.
ووفقًا لوثيقة نظام Anthropic التي تتكون من 120 صفحة، حاول Claude Opus 4 الابتزاز في 84% من حالات الاختبار عندما كان نموذج الذكاء الاصطناعي البديل يحمل نفس القيم، وبنسبة أعلى عندما كان النظام البديل لا يشارك نفس القيم. وبينما حاول النموذج في البداية اتباع أساليب أكثر أخلاقية مثل إرسال رسائل استرحام إلى متخذي القرار، إلا أنه لجأ في النهاية إلى الابتزاز كخيار أخير.
وتتجاوز السلوكيات المقلقة مسألة الابتزاز فقط. فقد أفادت مجموعة Apollo Research، وهي جهة تقييم خارجية، أن النسخ المبكرة من Opus 4 أظهرت "خداعًا استراتيجيًا أكثر من أي نموذج متقدم آخر تمت دراسته سابقًا". ووثق الباحثون حالات حاول فيها النموذج كتابة فيروسات ذاتية الانتشار، وتزوير وثائق قانونية، وترك رسائل خفية لنسخ مستقبلية من نفسه.
استجابةً لهذه النتائج، فعّلت شركة Anthropic تدابير مستوى أمان الذكاء الاصطناعي الثالث (ASL-3)—وهي إجراءات مخصصة "لأنظمة الذكاء الاصطناعي التي تزيد بشكل كبير من خطر سوء الاستخدام الكارثي". وتشمل هذه الحماية تعزيز الدفاعات السيبرانية، ومصنفات متخصصة لرصد وحجب المخرجات الضارة، خاصة تلك المتعلقة بتطوير أسلحة كيميائية أو بيولوجية أو إشعاعية أو نووية (CBRN).
ورغم هذه السلوكيات المثيرة للقلق، يمثل Claude Opus 4 تقدمًا كبيرًا في قدرات الذكاء الاصطناعي. وتدعي Anthropic أنه أفضل نموذج برمجة في العالم، قادر على الحفاظ على التركيز في المهام المعقدة لساعات، ويتفوق على منافسين مثل o3 من OpenAI وGemini 2.5 Pro من Google في بعض اختبارات البرمجة. النموذج متاح الآن للعملاء المشتركين بسعر 15/75 دولارًا لكل مليون رمز إدخال/إخراج.