كشفت دراسة رائدة من معهد ماساتشوستس للتقنية (MIT) عن خلل جوهري في نماذج الرؤية واللغة (VLMs) قد تكون له تبعات خطيرة على استخدامها في الرعاية الصحية وغيرها من البيئات الحساسة.
في الدراسة، وجد الباحثون أن نماذج الرؤية واللغة معرضة بشدة لارتكاب الأخطاء في المواقف الواقعية لأنها لا تفهم النفي — كلمات مثل "لا" و"ليس" التي تحدد ما هو غير صحيح أو غير موجود. يقول كميل الحمود، طالب الدراسات العليا في MIT والمؤلف الرئيسي للدراسة: "هذه الكلمات الدالة على النفي يمكن أن يكون لها تأثير كبير جداً، وإذا استخدمنا هذه النماذج بشكل أعمى فقد نواجه عواقب كارثية".
يوضح الباحثون المشكلة بمثال طبي: تخيل اختصاصي أشعة يفحص صورة أشعة صدرية ويلاحظ وجود تورم في الأنسجة لدى المريض، لكنه لا يعاني من تضخم في القلب. في مثل هذا السيناريو، من المرجح أن تفشل نماذج الرؤية واللغة في التمييز بين هاتين الحالتين. وإذا أخطأ النموذج في تحديد التقارير التي تحتوي على كلتا الحالتين، فقد تكون التبعات التشخيصية كبيرة: فالمريض الذي يعاني من تورم في الأنسجة وتضخم في القلب غالباً ما يكون لديه حالة قلبية، أما في حال عدم وجود تضخم في القلب فقد تكون هناك أسباب أخرى مختلفة.
عند اختبار قدرة نماذج الرؤية واللغة على التعرف على النفي في وصف الصور، وجد الباحثون أن أداء النماذج غالباً ما كان مماثلاً للتخمين العشوائي. وبناءً على هذه النتائج، أنشأ الفريق مجموعة بيانات تحتوي على صور مع أوصاف تتضمن كلمات نفي تصف أشياء مفقودة. وأظهروا أن إعادة تدريب نموذج الرؤية واللغة باستخدام هذه المجموعة يؤدي إلى تحسين الأداء عند مطالبة النموذج باسترجاع صور لا تحتوي على أشياء معينة. كما يزيد ذلك من الدقة في الإجابة على أسئلة الاختيار من متعدد مع أوصاف منفية. ومع ذلك، يحذر الباحثون من أن هناك حاجة لمزيد من العمل لمعالجة الأسباب الجذرية لهذه المشكلة.
يقول الحمود: "هذا لا يحدث فقط مع كلمات مثل 'لا' و'ليس'. بغض النظر عن كيفية التعبير عن النفي أو الاستثناء، فإن النماذج تتجاهله ببساطة". وقد كان هذا النمط ثابتاً في جميع نماذج الرؤية واللغة التي اختبروها.
وتعود المشكلة الأساسية إلى طريقة تدريب هذه النماذج. تقول مرزية قاسمي، المؤلفة المشاركة والأستاذة في قسم الهندسة الكهربائية وعلوم الحاسب وعضو معهد علوم الهندسة الطبية: "الأوصاف تعبر عما هو موجود في الصور — فهي بمثابة تصنيف إيجابي. وهذه هي المشكلة الأساسية فعلاً. لا أحد ينظر إلى صورة كلب يقفز فوق سياج ويصفها بعبارة 'كلب يقفز فوق سياج، ولا يوجد مروحيات'. وبسبب عدم وجود أمثلة على النفي في مجموعات بيانات الصور والأوصاف، لا تتعلم النماذج أبداً كيفية التعرف عليه".
تضيف قاسمي: "إذا كان هناك خلل في شيء أساسي مثل النفي، فلا ينبغي لنا استخدام نماذج الرؤية/اللغة الكبيرة في العديد من الاستخدامات الحالية — دون تقييم مكثف". وقد أُجريت هذه الدراسة، التي ستُعرض في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط، من قبل فريق يضم باحثين من MIT وOpenAI وجامعة أكسفورد.
وتحمل هذه النتائج دلالات هامة لقطاعات حساسة مثل مراقبة السلامة والرعاية الصحية. ويُمثل عمل الباحثين، الذي شمل تطوير معيار NegBench الشامل لتقييم نماذج الرؤية واللغة في مهام النفي، خطوة مهمة نحو أنظمة ذكاء اصطناعي أكثر قوة قادرة على فهم اللغة بشكل دقيق، مع آثار حاسمة على التشخيص الطبي واسترجاع المحتوى الدلالي.