كشفت دراسة جديدة أجراها باحثون من معهد ماساتشوستس للتقنية عن خلل أساسي في نماذج الرؤية واللغة (VLMs) قد تكون له تداعيات خطيرة على التشخيص الطبي وتطبيقات حيوية أخرى.
قاد فريق البحث كميل الحمود والمؤلفة الرئيسية مرزية قاسمي من قسم الهندسة الكهربائية وعلوم الحاسب في MIT، ووجدوا أن هذه الأنظمة الذكية - التي يُعتمد عليها بشكل متزايد في تحليل الصور الطبية - تفشل في فهم كلمات النفي مثل "لا" و"ليس" في الاستفسارات.
وتتفاقم خطورة هذا القصور في السياقات الطبية. فعلى سبيل المثال، عندما يفحص اختصاصي الأشعة صورة أشعة سينية للصدر تُظهر تورم الأنسجة دون تضخم القلب، فإن استخدام نظام ذكاء اصطناعي للعثور على حالات مشابهة قد يؤدي إلى تشخيصات خاطئة إذا لم يستطع النموذج التمييز بين وجود أو غياب حالات معينة.
ويحذر المؤلف الرئيسي الحمود قائلاً: "كلمات النفي هذه يمكن أن يكون لها تأثير بالغ، وإذا استخدمنا هذه النماذج بشكل أعمى فقد نواجه عواقب كارثية". وعند اختبار قدرة النماذج على التعرف على النفي في أوصاف الصور، لم تتفوق نتائجها على التخمين العشوائي.
ولمعالجة هذه المشكلة، طور الباحثون معيار NegBench، وهو معيار شامل يضم 79,000 مثال عبر 18 نوعًا من المهام تغطي مجموعات بيانات للصور والفيديو والطب. يقيم هذا المعيار قدرتين أساسيتين: استرجاع الصور بناءً على استفسارات منفية، والإجابة على أسئلة اختيار من متعدد مع أوصاف صور منفية.
كما أنشأ الفريق مجموعات بيانات بأمثلة خاصة بالنفي لإعادة تدريب هذه النماذج، مما أدى إلى تحسين بنسبة 10% في الاسترجاع عند الاستفسارات المنفية، وزيادة بنسبة 28% في الدقة في أسئلة الاختيار من متعدد ذات الأوصاف المنفية. ومع ذلك، يؤكد الباحثون أن هناك حاجة لمزيد من العمل لمعالجة الأسباب الجذرية لهذه المشكلة.
وتشدد قاسمي: "إذا كان شيء أساسي مثل النفي لا يعمل بشكل صحيح، فلا ينبغي لنا استخدام نماذج الرؤية/اللغة الكبيرة في العديد من الاستخدامات الحالية دون تقييم مكثف".
وسيتم عرض نتائج البحث في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط القادم، مما يسلط الضوء على الحاجة الملحة إلى أنظمة ذكاء اصطناعي أكثر قوة في التطبيقات الحيوية مثل الرعاية الصحية.