Новаторское исследование MIT выявило критический недостаток в моделях компьютерного зрения с языковыми возможностями (VLM), который может иметь серьёзные последствия для их применения в здравоохранении и других сферах с высокими требованиями к точности.
В ходе исследования учёные из MIT выяснили, что VLM крайне склонны к ошибкам в реальных условиях, поскольку не понимают отрицания — слова вроде «нет» и «не», указывающие на ложность или отсутствие признака. «Такие слова-отрицания могут иметь очень серьёзное значение, и если мы будем использовать эти модели вслепую, последствия могут быть катастрофическими», — говорит Кумайл Альхамуд, аспирант MIT и ведущий автор работы.
Исследователи приводят медицинский пример: представьте, что радиолог изучает рентген грудной клетки и замечает, что у пациента есть отёк тканей, но нет увеличенного сердца. В такой ситуации VLM, скорее всего, не смогут различить эти состояния. Если модель ошибочно определит, что в отчёте присутствуют оба признака, это может привести к серьёзным диагностическим последствиям: пациент с отёком тканей и увеличенным сердцем, вероятно, страдает от сердечного заболевания, но при отсутствии увеличенного сердца причины могут быть совершенно иными.
При тестировании способности VLM определять отрицание в подписях к изображениям исследователи обнаружили, что модели часто действуют наугад. Основываясь на этих результатах, команда создала датасет изображений с подписями, содержащими слова-отрицания, описывающие отсутствующие объекты. Они показали, что дообучение VLM на этом датасете улучшает результаты при поиске изображений, на которых нет определённых объектов, а также повышает точность при ответах на вопросы с вариантами выбора и отрицательными подписями. Однако исследователи подчёркивают, что для решения проблемы требуется дальнейшая работа.
«Это касается не только слов вроде “нет” и “не”. Независимо от того, как выражено отрицание или исключение, модели просто его игнорируют», — отмечает Альхамуд. Такая проблема наблюдалась во всех протестированных VLM. Корень проблемы — в способе обучения моделей. «Подписи к изображениям описывают то, что на них есть — это позитивная маркировка. И в этом вся суть проблемы. Никто не подписывает фото собаки, прыгающей через забор, как “собака прыгает через забор, без вертолётов”», — объясняет старший автор Марзия Гассеми. Поскольку в датасетах нет примеров с отрицанием, VLM не учатся его распознавать.
«Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать крупные модели компьютерного зрения и языка так, как делаем сейчас — без тщательной проверки», — говорит Гассеми, доцент кафедры электротехники и вычислительной техники MIT и член Института медицинской инженерии. Работа, которая будет представлена на конференции по компьютерному зрению и распознаванию образов, выполнена исследователями из MIT, OpenAI и Оксфордского университета.
Это открытие имеет важные последствия для таких сфер, как мониторинг безопасности и здравоохранение. Работа исследователей, включающая разработку NegBench — комплексного бенчмарка для оценки VLM по задачам с отрицанием, — является важным шагом к более надёжным ИИ-системам, способным к тонкому пониманию языка, что критически важно для медицинской диагностики и семантического поиска контента.