كشف بحث جديد من معهد ماساتشوستس للتكنولوجيا، نُشر هذا الأسبوع، عن وجود خلل خطير في أنظمة الذكاء الاصطناعي المستخدمة لتحليل الصور الطبية قد يعرّض المرضى للخطر.
قاد الدراسة طالب الدراسات العليا كميل الحمود والأستاذة المشاركة مرزية قاسمي، حيث أظهرت أن النماذج البصرية اللغوية (VLMs) – وهي أنظمة ذكاء اصطناعي تُستخدم على نطاق واسع في القطاع الصحي – تفشل بشكل أساسي في فهم كلمات النفي مثل "لا" و"ليس" عند تحليل الصور الطبية.
وحذّر الحمود، المؤلف الرئيسي للدراسة، قائلاً: "هذه الكلمات الدالة على النفي قد يكون لها تأثير بالغ، وإذا استخدمنا هذه النماذج بشكل أعمى، فقد نواجه عواقب كارثية".
عرض الباحثون هذه المشكلة من خلال مثال سريري: إذا قام طبيب أشعة بفحص صورة أشعة صدرية تظهر تورمًا في الأنسجة دون وجود تضخم في القلب، فقد يسترجع نظام الذكاء الاصطناعي حالات تحتوي على كلا الحالتين بشكل خاطئ، مما قد يؤدي إلى تشخيص مختلف تمامًا. وعند اختبار هذه النماذج رسميًا، لم تتجاوز نتائجها مستوى التخمين العشوائي في مهام النفي.
ولمعالجة هذا القصور الحرج، طوّر الفريق معيارًا جديدًا باسم NegBench، وهو إطار تقييم شامل يغطي 18 نوعًا من المهام و79,000 مثال عبر مجموعات بيانات للصور والفيديو والطب. ويقترح الحل الذي قدمه الباحثون إعادة تدريب النماذج البصرية اللغوية باستخدام مجموعات بيانات خاصة تحتوي على ملايين العبارات المنفية، وقد أظهرت النتائج تحسنًا واعدًا – حيث زادت نسبة الاسترجاع في الاستفسارات المنفية بنسبة 10٪ وارتفعت دقة الإجابات في الأسئلة متعددة الخيارات ذات العبارات المنفية بنسبة 28٪.
وحذّرت قاسمي قائلة: "إذا كان هناك خلل في شيء أساسي مثل النفي، فلا ينبغي لنا استخدام النماذج البصرية/اللغوية الكبيرة في العديد من التطبيقات الحالية دون تقييم مكثف"، مؤكدة على ضرورة التقييم الدقيق قبل نشر هذه الأنظمة في بيئات طبية عالية المخاطر.
وسيتم تقديم هذا البحث، الذي شارك فيه باحثون من OpenAI وجامعة أكسفورد، في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط القادم. كما أتاح الفريق معيارهم البرمجي وكودهم للعامة للمساهمة في معالجة هذه المشكلة الحرجة المتعلقة بسلامة الذكاء الاصطناعي.