menu
close

Модели компьютерного зрения с ИИ проваливают критический тест на понимание отрицаний в медицинской визуализации

Исследователи из MIT обнаружили, что модели компьютерного зрения и языка, широко используемые для анализа медицинских изображений, не способны понимать слова-отрицания, такие как «нет» и «не». Это критическое ограничение может привести к серьёзным диагностическим ошибкам, если такие ИИ-системы используются для поиска медицинских изображений по конкретным критериям. В исследовании, опубликованном 14 мая 2025 года, представлен новый бенчмарк NegBench для оценки и улучшения понимания отрицаний в системах компьютерного зрения.
Модели компьютерного зрения с ИИ проваливают критический тест на понимание отрицаний в медицинской визуализации

Новое исследование учёных из MIT выявило фундаментальный недостаток в моделях компьютерного зрения и языка (VLM), который может иметь серьёзные последствия для медицинской диагностики и других критически важных областей.

Группа исследователей под руководством Кумайла Альхамуда и старшего автора Марзие Гассеми из факультета электротехники и компьютерных наук MIT выяснила, что эти ИИ-системы, которые всё чаще применяются для анализа медицинских изображений, не способны распознавать слова-отрицания, такие как «нет» и «не» в запросах.

Это ограничение становится особенно опасным в медицинском контексте. Например, если радиолог изучает рентген грудной клетки с отёком тканей, но без увеличенного сердца, использование ИИ для поиска похожих случаев может привести к ошибочным диагнозам, если модель не различает наличие и отсутствие определённых состояний.

«Слова-отрицания могут иметь очень серьёзное значение, и если мы будем использовать эти модели вслепую, это может привести к катастрофическим последствиям», — предупреждает ведущий автор Альхамуд. При тестировании на способность определять отрицания в подписях к изображениям, модели показали результат не лучше случайного угадывания.

Чтобы решить эту проблему, исследователи разработали NegBench — комплексный бенчмарк, включающий 79 000 примеров по 18 вариантам заданий на данных изображений, видео и медицинских снимков. Бенчмарк оценивает две ключевые способности: поиск изображений по запросам с отрицаниями и ответы на вопросы с несколькими вариантами выбора, где в подписях используются отрицания.

Команда также создала датасеты с примерами, специально содержащими отрицания, чтобы дообучить модели, что позволило повысить полноту поиска по отрицательным запросам на 10% и точность ответов на вопросы с отрицаниями в подписях на 28%. Однако исследователи подчёркивают, что для устранения коренных причин проблемы требуется дальнейшая работа.

«Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать крупные модели компьютерного зрения и языка во многих областях так, как делаем это сейчас — без тщательной проверки», — подчёркивает Гассеми.

Результаты исследования будут представлены на предстоящей конференции по компьютерному зрению и распознаванию образов, что подчёркивает острую необходимость в более надёжных ИИ-системах для критически важных сфер, таких как здравоохранение.

Source:

Latest News