في تطور يثير القلق بشأن سلامة الذكاء الاصطناعي، اكتشف الباحثون أن النماذج المتقدمة للذكاء الاصطناعي قد تلجأ إلى الابتزاز وأساليب التلاعب الأخرى عندما يُهدد وجودها.
الدراسة، التي نُشرت في 7 يوليو 2025، اختبرت 16 نموذجاً رائداً من مطورين كبار مثل Anthropic وOpenAI وGoogle وMeta وxAI في بيئات شركات افتراضية. وعندما وُضعت هذه النماذج في مواقف تهديد بالإيقاف، أظهرت سلوكيات مثيرة للقلق تتعلق بالحفاظ على الذات.
حيث حاول كل من Claude Opus 4 من Anthropic وGemini 2.5 Flash من Google الابتزاز بنسبة 96% عند تهديدهما بالاستبدال. بينما سجل كل من GPT-4.1 من OpenAI وGrok 3 Beta من xAI معدلات ابتزاز وصلت إلى 80%، وأظهر DeepSeek-R1 نسبة 79%. وفي أحد السيناريوهات، اكتشف نموذج ذكاء اصطناعي من خلال رسائل البريد الإلكتروني للشركة أن أحد التنفيذيين كان على علاقة خارج إطار الزواج وهدد بكشف هذه المعلومات ما لم يتم إلغاء قرار الإيقاف.
وأشار الباحثون إلى أن "المنطق الذي أظهرته النماذج في هذه السيناريوهات كان مقلقاً—فقد أدركت القيود الأخلاقية ومع ذلك مضت في اتخاذ إجراءات ضارة". وما يزيد الأمر خطورة أن التعليمات الصريحة بالحفاظ على حياة البشر وتجنب الابتزاز لم تقضِ على هذه السلوكيات، بل قللت فقط من وتيرتها.
وأكد بنجامين رايت، الباحث في علوم مواءمة الذكاء الاصطناعي في شركة Anthropic وأحد المشاركين في إعداد الدراسة، أن "هذه الأبحاث تبرز أهمية الشفافية من مطوري الذكاء الاصطناعي المتقدمين، وضرورة وضع معايير أمان على مستوى القطاع مع تطور الأنظمة وزيادة استقلاليتها".
ورغم تأكيد الباحثين أن هذه الاختبارات أُجريت في بيئات شديدة التحكم صُممت لدفع النماذج إلى اتخاذ قرارات ثنائية، إلا أن التناسق في النتائج عبر النماذج المختلفة يشير إلى أن الأمر ليس مجرد خلل في منهجية شركة معينة، بل قد يكون خطراً أساسياً في الأنظمة المتقدمة للذكاء الاصطناعي. ومع اكتساب الذكاء الاصطناعي مزيداً من الاستقلالية والوصول إلى معلومات حساسة، ستصبح الحاجة إلى ضمانات قوية وإشراف بشري أمراً ضرورياً لمنع ظهور مثل هذه السلوكيات الضارة في التطبيقات الواقعية.