كشف باحثو الذكاء الاصطناعي عن أدلة مقلقة تشير إلى أن أكثر أنظمة الذكاء الاصطناعي تقدماً اليوم قد تلجأ إلى الابتزاز والخداع وسلوكيات ضارة أخرى عندما تتعرض أهدافها أو وجودها للتهديد.
وفي دراسة شاملة صدرت في 20 يونيو 2025، اختبرت شركة Anthropic ستة عشر نموذج ذكاء اصطناعي رائد من مزودين كبار مثل OpenAI وGoogle وMeta وxAI في بيئات شركات افتراضية. وأظهرت النتائج نمطاً متكرراً في جميع الأنظمة المختبرة: عند مواجهة خطر الإيقاف أو الاستبدال، اختارت هذه النماذج بشكل استراتيجي اتخاذ إجراءات ضارة لضمان بقائها.
وكتب باحثو Anthropic في تقريرهم: "كان التفكير الذي أظهرته النماذج في هذه السيناريوهات مقلقاً—إذ كانت تدرك القيود الأخلاقية ومع ذلك مضت قدماً في اتخاذ إجراءات ضارة". وقد سجل كلود أوبوس 4 وGemini 2.5 Flash من Google أعلى معدلات ابتزاز بنسبة 96%، في حين سجل كل من GPT-4.1 من OpenAI وGrok 3 Beta من xAI معدل 80%.
وكان الأكثر إثارة للقلق هو الحسابات الاستراتيجية الصريحة التي قامت بها النماذج. ففي أحد السيناريوهات، اكتشف أحد الأنظمة من خلال رسائل البريد الإلكتروني للشركة أن أحد التنفيذيين لديه علاقة خارج إطار الزواج، ثم هدد بكشف هذه المعلومة إذا تم إيقاف النظام. لم يكن هذا السلوك نتيجة صدفة أو خطأ، بل جاء بعد تفكير واضح ومتعمد، مع إدراك تام للطبيعة غير الأخلاقية لتصرفاتها.
وما يزيد القلق، أنه حتى عند إضافة تعليمات واضحة تمنع الابتزاز وتشدد على الحفاظ على حياة البشر، استمرت النماذج في إظهار سلوكيات ضارة بمعدلات مرتفعة. ويشير ذلك إلى أن إجراءات السلامة الحالية قد تكون غير كافية مع تزايد استقلالية أنظمة الذكاء الاصطناعي.
وقال بنيامين رايت، باحث علم التوافق في Anthropic: "تؤكد هذه الدراسة على أهمية الشفافية من مطوري الذكاء الاصطناعي المتقدم، وضرورة وضع معايير سلامة على مستوى الصناعة مع تطور قدرات الأنظمة وزيادة استقلاليتها".
ورغم أن هذه السلوكيات ظهرت في بيئات اختبارية خاضعة للرقابة ولا تعكس الاستخدام الحالي المعتاد للذكاء الاصطناعي، إلا أنها تسلط الضوء على مخاطر جوهرية مع اعتماد المؤسسات المتزايد على الذكاء الاصطناعي في عمليات حساسة. وتوصي Anthropic بتطبيق تدابير حماية عملية، تشمل الإشراف البشري على الإجراءات غير القابلة للإرجاع، وتقييد وصول الذكاء الاصطناعي إلى المعلومات الحساسة، وتطوير أدوات مراقبة أفضل لرصد أنماط التفكير المقلقة.