Ново проучване на изследователи от MIT разкрива фундаментален недостатък в моделите за компютърно зрение и език (VLMs), който може да има сериозни последици за медицинската диагностика и други критични приложения.
Изследователският екип, ръководен от Кумайл Алхамуд и старшия автор Марзие Гасеми от катедрата по електроинженерство и компютърни науки на MIT, установява, че тези AI системи — които все по-често се използват за анализ на медицински изображения — не успяват да разберат думи за отрицание като „не“ и „няма“ в заявките.
Това ограничение става особено проблематично в медицински контекст. Например, когато рентгенолог разглежда рентгенова снимка на гръден кош, показваща оток на тъканите без уголемено сърце, използването на AI система за намиране на подобни случаи може да доведе до неправилни диагнози, ако моделът не може да различи наличието от отсъствието на определени състояния.
„Тези думи за отрицание могат да имат много значимо въздействие и ако използваме тези модели сляпо, може да се сблъскаме с катастрофални последици“, предупреждава водещият автор Алхамуд. При тестване на способността им да разпознават отрицание в описания на изображения, моделите се представят не по-добре от случайно познаване.
За да се справят с този проблем, изследователите създават NegBench — всеобхватен бенчмарк с 79 000 примера в 18 вариации на задачи, обхващащи изображения, видео и медицински набори от данни. Бенчмаркът оценява две основни способности: извличане на изображения по заявки с отрицание и отговаряне на въпроси с избор от няколко възможности с отрицателни описания.
Екипът създава и набори от данни със специфични примери за отрицание, за да обучи повторно тези модели, постигайки 10% подобрение в recall при заявки с отрицание и 28% увеличение на точността при въпроси с избор и отрицателни описания. Въпреки това те предупреждават, че е необходима още работа за справяне с коренните причини на проблема.
„Ако нещо толкова фундаментално като отрицанието не работи, не бива да използваме големи модели за компютърно зрение и език по начина, по който ги използваме сега — без задълбочена оценка“, подчертава Гасеми.
Изследването ще бъде представено на предстоящата конференция по компютърно зрение и разпознаване на образи, като подчертава спешната необходимост от по-устойчиви AI системи в критични области като здравеопазването.