كشفت دراسة رائدة من معهد ماساتشوستس للتكنولوجيا عن خلل جوهري في نماذج الرؤية واللغة (VLMs) قد تكون له آثار خطيرة على استخدامها في الرعاية الصحية وغيرها من البيئات الحساسة.
في الدراسة، وجد الباحثون أن هذه النماذج معرضة بشكل كبير لارتكاب أخطاء في المواقف الواقعية لأنها لا تفهم النفي — كلمات مثل "لا" و"ليس" التي تحدد ما هو غير صحيح أو غائب. يقول كميل الحمود، طالب الدراسات العليا في MIT والمؤلف الرئيسي للدراسة: "هذه الكلمات الخاصة بالنفي يمكن أن يكون لها تأثير كبير جداً، وإذا استخدمنا هذه النماذج بشكل أعمى فقد نواجه عواقب كارثية".
يوضح الباحثون المشكلة من خلال مثال طبي: تخيل طبيب أشعة يفحص صورة أشعة للصدر ويلاحظ أن المريض يعاني من تورم في الأنسجة لكنه لا يعاني من تضخم في القلب. في مثل هذا السيناريو، من المرجح أن تفشل نماذج الرؤية واللغة في التمييز بين هاتين الحالتين. وإذا أخطأ النموذج في تحديد التقارير التي تحتوي على كلتا الحالتين، فقد تكون تداعيات التشخيص كبيرة: فالمريض الذي يعاني من تورم في الأنسجة وتضخم في القلب غالباً ما يكون لديه حالة مرتبطة بالقلب، أما في حال عدم وجود تضخم في القلب فقد تكون هناك أسباب مختلفة تماماً.
عند اختبار قدرة النماذج على تحديد النفي في تسميات الصور، وجد الباحثون أن أداء النماذج غالباً ما كان مماثلاً للتخمين العشوائي. وبناءً على هذه النتائج، أنشأ الفريق مجموعة بيانات من الصور مع تسميات تتضمن كلمات نفي تصف أشياء مفقودة. وأظهروا أن إعادة تدريب نموذج الرؤية واللغة باستخدام هذه المجموعة يؤدي إلى تحسين الأداء عندما يُطلب من النموذج استرجاع صور لا تحتوي على أشياء معينة. كما ارتفعت الدقة في اختبارات الأسئلة متعددة الخيارات مع التسميات المنفية. ومع ذلك، يحذر الباحثون من أن هناك حاجة لمزيد من العمل لمعالجة الأسباب الجذرية لهذه المشكلة.
يقول الحمود: "هذه المشكلة لا تقتصر فقط على كلمات مثل 'لا' و'ليس'. بغض النظر عن كيفية التعبير عن النفي أو الاستبعاد، فإن النماذج تتجاهل ذلك ببساطة". وقد كان هذا السلوك ثابتاً عبر جميع النماذج التي اختبروها.
وتعود المشكلة الأساسية إلى كيفية تدريب هذه النماذج. توضح مرزية قاسمي، المؤلفة المشاركة في الدراسة: "التسميات تصف ما هو موجود في الصور — أي أنها تصنيفات إيجابية. وهذه هي المشكلة الأساسية. لا أحد ينظر إلى صورة كلب يقفز فوق سياج ويكتب في التسمية: 'كلب يقفز فوق سياج، ولا توجد مروحيات'. ونظراً لأن مجموعات بيانات الصور والتسميات لا تتضمن أمثلة على النفي، فإن النماذج لا تتعلم أبداً كيفية التعرف عليه".
تقول قاسمي، أستاذة مشاركة في قسم الهندسة الكهربائية وعلوم الحاسوب وعضوة في معهد علوم الهندسة الطبية: "إذا كان هناك خلل في شيء أساسي مثل النفي، فلا ينبغي لنا استخدام نماذج الرؤية/اللغة الكبيرة في العديد من الاستخدامات الحالية دون تقييم مكثف". وسيتم عرض هذا البحث، الذي شارك فيه باحثون من MIT وOpenAI وجامعة أكسفورد، في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط.
وتحمل هذه النتائج آثاراً كبيرة على مجالات حساسة مثل مراقبة السلامة والرعاية الصحية. ويُمثل عمل الباحثين، الذي شمل تطوير معيار NegBench الشامل لتقييم نماذج الرؤية واللغة في المهام المتعلقة بالنفي، خطوة مهمة نحو أنظمة ذكاء اصطناعي أكثر قوة قادرة على فهم اللغة الدقيقة، مع آثار حاسمة على التشخيص الطبي واسترجاع المحتوى الدلالي.