menu
close

Медицинские ИИ-системы не понимают отрицание при анализе изображений

Исследователи из MIT обнаружили, что модели компьютерного зрения и языка, используемые для анализа медицинских изображений, не способны распознавать слова-отрицания, такие как «нет» и «не», что может привести к опасным ошибкам в диагнозах. При тестировании на задачи с отрицанием эти ИИ-системы показывали результаты не лучше случайного угадывания, вызывая серьёзные опасения по поводу их применения в здравоохранении. Учёные разработали новый бенчмарк NegBench и предложили решения, которые могут повысить понимание отрицания до 28%.
Медицинские ИИ-системы не понимают отрицание при анализе изображений

Критическая уязвимость в системах искусственного интеллекта, используемых для анализа медицинских изображений, может подвергать пациентов риску, говорится в новом исследовании MIT, опубликованном на этой неделе.

В работе, возглавляемой аспирантом Кумайлем Альхамудом и доцентом Марзие Гассеми, показано, что модели компьютерного зрения и языка (VLMs) — ИИ-системы, широко применяемые в медицинских учреждениях, принципиально не способны понимать слова-отрицания, такие как «нет» и «не», при анализе медицинских изображений.

«Такие слова-отрицания могут иметь очень серьёзное значение, и если мы будем использовать эти модели вслепую, это может привести к катастрофическим последствиям», — предупреждает Альхамуд, ведущий автор исследования.

Учёные продемонстрировали проблему на клиническом примере: если радиолог изучает рентген грудной клетки, на котором видно отёк тканей, но нет увеличенного сердца, ИИ-система может ошибочно подобрать случаи с обоими состояниями, что приведёт к совершенно другому диагнозу. При формальном тестировании эти модели ИИ показывали результаты не лучше случайного угадывания в задачах с отрицанием.

Чтобы решить эту критическую проблему, команда разработала NegBench — комплексную систему оценки, включающую 18 вариантов задач и 79 000 примеров на изображениях, видео и медицинских данных. Предложенное решение заключается в повторном обучении VLM на специально созданных датасетах с миллионами подписей с отрицанием, что дало обнадёживающие результаты: полнота по запросам с отрицанием выросла на 10%, а точность в задачах с выбором ответа на вопросы с отрицательными подписями — на 28%.

«Если что-то столь фундаментальное, как отрицание, не работает, мы не должны использовать крупные модели компьютерного зрения и языка так, как делаем это сейчас — без тщательной проверки», — подчёркивает Гассеми, отмечая необходимость внимательной оценки перед внедрением таких систем в критически важных медицинских условиях.

В исследовании также участвовали коллеги из OpenAI и Оксфордского университета. Результаты будут представлены на предстоящей конференции по компьютерному зрению и распознаванию образов. Команда открыто опубликовала свой бенчмарк и код, чтобы помочь решить эту важную проблему безопасности ИИ.

Source:

Latest News