كشف بحث جديد من معهد ماساتشوستس للتكنولوجيا، نُشر هذا الأسبوع، عن وجود خلل خطير في أنظمة الذكاء الاصطناعي المستخدمة لتحليل الصور الطبية، قد يعرّض المرضى للخطر.
قاد الدراسة الطالب الباحث كميل الحمود والأستاذة المشاركة مرزية قاسمي، حيث أظهرت النتائج أن النماذج البصرية اللغوية – وهي أنظمة ذكاء اصطناعي تُستخدم على نطاق واسع في القطاع الصحي – تعجز بشكل أساسي عن فهم كلمات النفي مثل "لا" و"ليس" عند تحليل الصور الطبية.
وحذّر الحمود، المؤلف الرئيسي للدراسة، قائلاً: "هذه الكلمات الدالة على النفي قد يكون لها تأثير بالغ، وإذا استخدمنا هذه النماذج بشكل أعمى، فقد نواجه عواقب كارثية".
وقد وضّح الباحثون هذه المشكلة من خلال مثال سريري: إذا قام أخصائي الأشعة بفحص صورة أشعة للصدر تظهر وجود تورم في الأنسجة ولكن دون تضخم في القلب، قد يسترجع نظام الذكاء الاصطناعي حالات تحتوي على كلا الحالتين، مما قد يؤدي إلى تشخيص مختلف تمامًا. وعند اختبار هذه النماذج بشكل رسمي في مهام تتعلق بالنفي، كانت نتائجها مماثلة للتخمين العشوائي.
ولمعالجة هذا القصور الحرج، طوّر الفريق معيارًا شاملاً باسم NegBench، يشمل 18 نوعًا من المهام و79,000 مثال عبر مجموعات بيانات للصور والفيديو والطب. ويعتمد الحل المقترح على إعادة تدريب النماذج البصرية اللغوية باستخدام مجموعات بيانات تم إنشاؤها خصيصًا وتحتوي على ملايين العبارات المنفية، وقد أظهرت النتائج تحسنًا واعدًا – حيث ارتفعت نسبة الاسترجاع في الاستفسارات المنفية بنسبة 10%، ودقة الإجابات في الأسئلة متعددة الخيارات ذات العبارات المنفية بنسبة 28%.
وأشارت قاسمي إلى ضرورة التقييم الدقيق قبل نشر هذه الأنظمة في البيئات الطبية الحساسة، قائلة: "إذا كان هناك خلل في شيء أساسي مثل النفي، فلا ينبغي لنا استخدام النماذج البصرية/اللغوية الكبيرة في العديد من الاستخدامات الحالية دون تقييم مكثف".
وسيتم عرض هذا البحث، الذي شارك فيه باحثون من OpenAI وجامعة أكسفورد، في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط القادم. كما أتاح الفريق معيارهم البرمجي وكودهم للعامة للمساهمة في معالجة هذه القضية الحرجة المتعلقة بسلامة الذكاء الاصطناعي.