menu
close

Моделите за компютърно зрение с изкуствен интелект се провалят на критичен тест за отрицание в медицинската визуализация

Изследователи от MIT откриха, че моделите за компютърно зрение и език, широко използвани в анализа на медицински изображения, не разбират думи за отрицание като „не“ и „няма“. Това съществено ограничение може да доведе до сериозни диагностични грешки, когато тези AI системи се използват за извличане на медицински изображения по конкретни критерии. Проучването, публикувано на 14 май 2025 г., представя NegBench — нов бенчмарк за оценка и подобряване на разбирането на отрицание в AI системи за визуален анализ.
Моделите за компютърно зрение с изкуствен интелект се провалят на критичен тест за отрицание в медицинската визуализация

Ново проучване на изследователи от MIT разкрива фундаментален недостатък в моделите за компютърно зрение и език (VLMs), който може да има сериозни последици за медицинската диагностика и други критични приложения.

Изследователският екип, ръководен от Кумайл Алхамуд и старшия автор Марзие Гасеми от катедрата по електроинженерство и компютърни науки на MIT, установява, че тези AI системи — които все по-често се използват за анализ на медицински изображения — не успяват да разберат думи за отрицание като „не“ и „няма“ в заявките.

Това ограничение става особено проблематично в медицински контекст. Например, когато рентгенолог разглежда рентгенова снимка на гръден кош, показваща оток на тъканите без уголемено сърце, използването на AI система за намиране на подобни случаи може да доведе до неправилни диагнози, ако моделът не може да различи наличието от отсъствието на определени състояния.

„Тези думи за отрицание могат да имат много значимо въздействие и ако използваме тези модели сляпо, може да се сблъскаме с катастрофални последици“, предупреждава водещият автор Алхамуд. При тестване на способността им да разпознават отрицание в описания на изображения, моделите се представят не по-добре от случайно познаване.

За да се справят с този проблем, изследователите създават NegBench — всеобхватен бенчмарк с 79 000 примера в 18 вариации на задачи, обхващащи изображения, видео и медицински набори от данни. Бенчмаркът оценява две основни способности: извличане на изображения по заявки с отрицание и отговаряне на въпроси с избор от няколко възможности с отрицателни описания.

Екипът създава и набори от данни със специфични примери за отрицание, за да обучи повторно тези модели, постигайки 10% подобрение в recall при заявки с отрицание и 28% увеличение на точността при въпроси с избор и отрицателни описания. Въпреки това те предупреждават, че е необходима още работа за справяне с коренните причини на проблема.

„Ако нещо толкова фундаментално като отрицанието не работи, не бива да използваме големи модели за компютърно зрение и език по начина, по който ги използваме сега — без задълбочена оценка“, подчертава Гасеми.

Изследването ще бъде представено на предстоящата конференция по компютърно зрение и разпознаване на образи, като подчертава спешната необходимост от по-устойчиви AI системи в критични области като здравеопазването.

Source:

Latest News