menu
close

نماذج الرؤية واللغة الذكية تفشل في فهم النفي، مما يهدد بحدوث أخطاء طبية

اكتشف باحثون من معهد ماساتشوستس للتكنولوجيا أن نماذج الرؤية واللغة (VLMs) غير قادرة على فهم كلمات النفي مثل "لا" و"ليس"، حيث جاءت نتائجها في الاختبارات مماثلة للتخمين العشوائي. هذا الخلل الجذري قد يؤدي إلى أخطاء تشخيصية خطيرة في الرعاية الصحية، حيث يُعد التمييز بين الحالات الموجودة والغائبة أمراً بالغ الأهمية. وقاد فريق البحث كميل الحمود ومرزية قاسمي، وطوّروا معياراً جديداً باسم NegBench لتقييم وتحسين أداء هذه النماذج.
نماذج الرؤية واللغة الذكية تفشل في فهم النفي، مما يهدد بحدوث أخطاء طبية

كشفت دراسة رائدة من معهد ماساتشوستس للتكنولوجيا عن خلل جوهري في نماذج الرؤية واللغة (VLMs) قد تكون له آثار خطيرة على استخدامها في الرعاية الصحية وغيرها من البيئات الحساسة.

في الدراسة، وجد الباحثون أن هذه النماذج معرضة بشكل كبير لارتكاب أخطاء في المواقف الواقعية لأنها لا تفهم النفي — كلمات مثل "لا" و"ليس" التي تحدد ما هو غير صحيح أو غائب. يقول كميل الحمود، طالب الدراسات العليا في MIT والمؤلف الرئيسي للدراسة: "هذه الكلمات الخاصة بالنفي يمكن أن يكون لها تأثير كبير جداً، وإذا استخدمنا هذه النماذج بشكل أعمى فقد نواجه عواقب كارثية".

يوضح الباحثون المشكلة من خلال مثال طبي: تخيل طبيب أشعة يفحص صورة أشعة للصدر ويلاحظ أن المريض يعاني من تورم في الأنسجة لكنه لا يعاني من تضخم في القلب. في مثل هذا السيناريو، من المرجح أن تفشل نماذج الرؤية واللغة في التمييز بين هاتين الحالتين. وإذا أخطأ النموذج في تحديد التقارير التي تحتوي على كلتا الحالتين، فقد تكون تداعيات التشخيص كبيرة: فالمريض الذي يعاني من تورم في الأنسجة وتضخم في القلب غالباً ما يكون لديه حالة مرتبطة بالقلب، أما في حال عدم وجود تضخم في القلب فقد تكون هناك أسباب مختلفة تماماً.

عند اختبار قدرة النماذج على تحديد النفي في تسميات الصور، وجد الباحثون أن أداء النماذج غالباً ما كان مماثلاً للتخمين العشوائي. وبناءً على هذه النتائج، أنشأ الفريق مجموعة بيانات من الصور مع تسميات تتضمن كلمات نفي تصف أشياء مفقودة. وأظهروا أن إعادة تدريب نموذج الرؤية واللغة باستخدام هذه المجموعة يؤدي إلى تحسين الأداء عندما يُطلب من النموذج استرجاع صور لا تحتوي على أشياء معينة. كما ارتفعت الدقة في اختبارات الأسئلة متعددة الخيارات مع التسميات المنفية. ومع ذلك، يحذر الباحثون من أن هناك حاجة لمزيد من العمل لمعالجة الأسباب الجذرية لهذه المشكلة.

يقول الحمود: "هذه المشكلة لا تقتصر فقط على كلمات مثل 'لا' و'ليس'. بغض النظر عن كيفية التعبير عن النفي أو الاستبعاد، فإن النماذج تتجاهل ذلك ببساطة". وقد كان هذا السلوك ثابتاً عبر جميع النماذج التي اختبروها.

وتعود المشكلة الأساسية إلى كيفية تدريب هذه النماذج. توضح مرزية قاسمي، المؤلفة المشاركة في الدراسة: "التسميات تصف ما هو موجود في الصور — أي أنها تصنيفات إيجابية. وهذه هي المشكلة الأساسية. لا أحد ينظر إلى صورة كلب يقفز فوق سياج ويكتب في التسمية: 'كلب يقفز فوق سياج، ولا توجد مروحيات'. ونظراً لأن مجموعات بيانات الصور والتسميات لا تتضمن أمثلة على النفي، فإن النماذج لا تتعلم أبداً كيفية التعرف عليه".

تقول قاسمي، أستاذة مشاركة في قسم الهندسة الكهربائية وعلوم الحاسوب وعضوة في معهد علوم الهندسة الطبية: "إذا كان هناك خلل في شيء أساسي مثل النفي، فلا ينبغي لنا استخدام نماذج الرؤية/اللغة الكبيرة في العديد من الاستخدامات الحالية دون تقييم مكثف". وسيتم عرض هذا البحث، الذي شارك فيه باحثون من MIT وOpenAI وجامعة أكسفورد، في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط.

وتحمل هذه النتائج آثاراً كبيرة على مجالات حساسة مثل مراقبة السلامة والرعاية الصحية. ويُمثل عمل الباحثين، الذي شمل تطوير معيار NegBench الشامل لتقييم نماذج الرؤية واللغة في المهام المتعلقة بالنفي، خطوة مهمة نحو أنظمة ذكاء اصطناعي أكثر قوة قادرة على فهم اللغة الدقيقة، مع آثار حاسمة على التشخيص الطبي واسترجاع المحتوى الدلالي.

Source: Mit

Latest News