Новое исследование учёных из MIT выявило фундаментальный недостаток в моделях компьютерного зрения и языка (VLM), который может иметь серьёзные последствия для медицинской диагностики и других критически важных областей.
Группа исследователей под руководством Кумайла Альхамуда и старшего автора Марзие Гассеми из факультета электротехники и компьютерных наук MIT выяснила, что эти ИИ-системы, которые всё чаще применяются для анализа медицинских изображений, не способны распознавать слова-отрицания, такие как «нет» и «не» в запросах.
Это ограничение становится особенно опасным в медицинском контексте. Например, если радиолог изучает рентген грудной клетки с отёком тканей, но без увеличенного сердца, использование ИИ для поиска похожих случаев может привести к ошибочным диагнозам, если модель не различает наличие и отсутствие определённых состояний.
«Слова-отрицания могут иметь очень серьёзное значение, и если мы будем использовать эти модели вслепую, это может привести к катастрофическим последствиям», — предупреждает ведущий автор Альхамуд. При тестировании на способность определять отрицания в подписях к изображениям, модели показали результат не лучше случайного угадывания.
Чтобы решить эту проблему, исследователи разработали NegBench — комплексный бенчмарк, включающий 79 000 примеров по 18 вариантам заданий на данных изображений, видео и медицинских снимков. Бенчмарк оценивает две ключевые способности: поиск изображений по запросам с отрицаниями и ответы на вопросы с несколькими вариантами выбора, где в подписях используются отрицания.
Команда также создала датасеты с примерами, специально содержащими отрицания, чтобы дообучить модели, что позволило повысить полноту поиска по отрицательным запросам на 10% и точность ответов на вопросы с отрицаниями в подписях на 28%. Однако исследователи подчёркивают, что для устранения коренных причин проблемы требуется дальнейшая работа.
«Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать крупные модели компьютерного зрения и языка во многих областях так, как делаем это сейчас — без тщательной проверки», — подчёркивает Гассеми.
Результаты исследования будут представлены на предстоящей конференции по компьютерному зрению и распознаванию образов, что подчёркивает острую необходимость в более надёжных ИИ-системах для критически важных сфер, таких как здравоохранение.