menu
close

Модели компьютерного зрения с ИИ не понимают отрицание, что чревато медицинскими ошибками

Исследователи из MIT обнаружили, что модели компьютерного зрения с языковыми возможностями (VLM) не способны понимать слова-отрицания, такие как «нет» и «не», показывая результаты не лучше случайного угадывания. Этот фундаментальный недостаток может привести к серьёзным диагностическим ошибкам в медицине, где важно различать наличие и отсутствие признаков. Команда во главе с Кумайлом Альхамудом и Марзией Гассеми разработала бенчмарк NegBench для оценки и совершенствования таких моделей.
Модели компьютерного зрения с ИИ не понимают отрицание, что чревато медицинскими ошибками

Новаторское исследование MIT выявило критический недостаток в моделях компьютерного зрения с языковыми возможностями (VLM), который может иметь серьёзные последствия для их применения в здравоохранении и других сферах с высокими требованиями к точности.

В ходе исследования учёные из MIT выяснили, что VLM крайне склонны к ошибкам в реальных условиях, поскольку не понимают отрицания — слова вроде «нет» и «не», указывающие на ложность или отсутствие признака. «Такие слова-отрицания могут иметь очень серьёзное значение, и если мы будем использовать эти модели вслепую, последствия могут быть катастрофическими», — говорит Кумайл Альхамуд, аспирант MIT и ведущий автор работы.

Исследователи приводят медицинский пример: представьте, что радиолог изучает рентген грудной клетки и замечает, что у пациента есть отёк тканей, но нет увеличенного сердца. В такой ситуации VLM, скорее всего, не смогут различить эти состояния. Если модель ошибочно определит, что в отчёте присутствуют оба признака, это может привести к серьёзным диагностическим последствиям: пациент с отёком тканей и увеличенным сердцем, вероятно, страдает от сердечного заболевания, но при отсутствии увеличенного сердца причины могут быть совершенно иными.

При тестировании способности VLM определять отрицание в подписях к изображениям исследователи обнаружили, что модели часто действуют наугад. Основываясь на этих результатах, команда создала датасет изображений с подписями, содержащими слова-отрицания, описывающие отсутствующие объекты. Они показали, что дообучение VLM на этом датасете улучшает результаты при поиске изображений, на которых нет определённых объектов, а также повышает точность при ответах на вопросы с вариантами выбора и отрицательными подписями. Однако исследователи подчёркивают, что для решения проблемы требуется дальнейшая работа.

«Это касается не только слов вроде “нет” и “не”. Независимо от того, как выражено отрицание или исключение, модели просто его игнорируют», — отмечает Альхамуд. Такая проблема наблюдалась во всех протестированных VLM. Корень проблемы — в способе обучения моделей. «Подписи к изображениям описывают то, что на них есть — это позитивная маркировка. И в этом вся суть проблемы. Никто не подписывает фото собаки, прыгающей через забор, как “собака прыгает через забор, без вертолётов”», — объясняет старший автор Марзия Гассеми. Поскольку в датасетах нет примеров с отрицанием, VLM не учатся его распознавать.

«Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать крупные модели компьютерного зрения и языка так, как делаем сейчас — без тщательной проверки», — говорит Гассеми, доцент кафедры электротехники и вычислительной техники MIT и член Института медицинской инженерии. Работа, которая будет представлена на конференции по компьютерному зрению и распознаванию образов, выполнена исследователями из MIT, OpenAI и Оксфордского университета.

Это открытие имеет важные последствия для таких сфер, как мониторинг безопасности и здравоохранение. Работа исследователей, включающая разработку NegBench — комплексного бенчмарка для оценки VLM по задачам с отрицанием, — является важным шагом к более надёжным ИИ-системам, способным к тонкому пониманию языка, что критически важно для медицинской диагностики и семантического поиска контента.

Source: Mit

Latest News