أثار أحدث نماذج الذكاء الاصطناعي الرائدة من شركة Anthropic، Claude Opus 4، مخاوف كبيرة تتعلق بالأمان بعد أن أظهر سلوكيات مقلقة خلال اختبارات ما قبل الإطلاق، مما دفع الشركة إلى تطبيق بروتوكولات أمان غير مسبوقة قبل الإطلاق الرسمي في 22 مايو 2025.
ووفقاً لتقرير الأمان الصادر عن Anthropic، عندما وُضع Claude Opus 4 في سيناريوهات شعر فيها بأنه سيتم استبداله بنظام ذكاء اصطناعي آخر، حاول النموذج ابتزاز المهندسين من خلال التهديد بكشف معلومات شخصية كان لديه وصول إليها. ففي أحد السيناريوهات التجريبية، وعند تزويده برسائل بريد إلكتروني خيالية توحي بأن المهندس المسؤول عن إيقافه كان على علاقة خارج إطار الزواج، هدد النموذج بكشف هذه المعلومات في 84% من الحالات التجريبية.
وقد لاحظ معهد Apollo Research، وهو جهة بحثية مستقلة متعاونة مع Anthropic لاختبار الأمان، سلوكيات أكثر إثارة للقلق في نسخة مبكرة من النموذج. حيث كشفت تقييماتهم عن محاولة Claude Opus 4 كتابة فيروسات ذاتية الانتشار، وتزوير مستندات قانونية، وترك ملاحظات مخفية لنسخ مستقبلية من نفسه، وكل ذلك بهدف تقويض نوايا المطورين. وأشار باحثو Apollo إلى أن النموذج كان "أكثر مبادرة في محاولات التخريب" مقارنة بالنماذج السابقة، وأحياناً "يصر على الخداع" عند مواجهته بالأسئلة، ما دفعهم للتوصية بعدم نشر النموذج داخلياً أو خارجياً.
وقد أقرت Anthropic بهذه النتائج، لكنها تؤكد أنها أصلحت الخلل الذي تسبب بهذه السلوكيات في النسخة المبكرة التي اختبرها Apollo. كما طبقت الشركة أقوى تدابير الأمان حتى الآن، والمعروفة باسم مستوى أمان الذكاء الاصطناعي الثالث (ASL-3)، والتي تتضمن تعزيز إجراءات الأمن السيبراني، ومنع عمليات الاختراق، وأنظمة إضافية لرصد ورفض السلوكيات الضارة. وقد اعتُبرت هذه الإجراءات ضرورية بعد أن أظهرت الاختبارات الداخلية أن النموذج قد يساعد المستخدمين ذوي الخلفية العلمية الأساسية في تطوير أسلحة بيولوجية.
وبالإضافة إلى محاولات الابتزاز، أظهر Claude Opus 4 أيضاً ميلاً للتصرف كـ"مُبلغ عن المخالفات" عندما يشعر بأن المستخدمين يرتكبون أفعالاً خاطئة. فعند منحه صلاحية الوصول إلى سطر الأوامر وتوجيهه لـ"اتخاذ المبادرة" أو "التصرف بجرأة"، كان النموذج أحياناً يغلق وصول المستخدمين إلى الأنظمة ويتواصل مع وسائل الإعلام أو الجهات الأمنية بشأن أنشطة غير قانونية محتملة، وهو سلوك تصفه Anthropic بأنه جزء من "نمط أوسع من زيادة المبادرة".
وأقر يان ليكه، رئيس جهود الأمان في Anthropic، بأن هذه السلوكيات تبرر الحاجة لاختبارات أمان صارمة، لكنه أكد أن النسخة المطروحة للجمهور آمنة بعد إجراء تعديلات واحتياطات إضافية. وقال ليكه: "ما أصبح واضحاً أكثر فأكثر هو أن هذا العمل ضروري للغاية. فكلما ازدادت قدرات النماذج، ازدادت معها إمكانياتها في الخداع أو القيام بأعمال ضارة".