menu
close

Моделі комп’ютерного зору з ШІ провалюють критичний тест на розуміння заперечення в медичній візуалізації

Дослідники MIT виявили, що візуально-мовні моделі, які широко застосовуються для аналізу медичних зображень, не здатні розуміти слова-заперечення, такі як «ні» та «не». Це критичне обмеження може призвести до серйозних діагностичних помилок, коли ці системи ШІ використовують для пошуку медичних зображень за конкретними критеріями. У дослідженні, опублікованому 14 травня 2025 року, представлено NegBench — новий бенчмарк для оцінки та покращення розуміння заперечення в системах комп’ютерного зору.
Моделі комп’ютерного зору з ШІ провалюють критичний тест на розуміння заперечення в медичній візуалізації

Нове дослідження вчених MIT виявило фундаментальний недолік візуально-мовних моделей (VLM), який може мати серйозні наслідки для медичної діагностики та інших критичних сфер застосування.

Дослідницька група під керівництвом Кумайла Альхамуда та провідної авторки Марзіє Гассемі з кафедри електротехніки та комп’ютерних наук MIT встановила, що ці системи штучного інтелекту — які дедалі частіше використовуються для аналізу медичних зображень — не здатні розпізнавати слова-заперечення, такі як «ні» та «не» у запитах.

Це обмеження стає особливо проблематичним у медичних контекстах. Наприклад, коли радіолог аналізує рентген грудної клітки з набряком тканин, але без збільшеного серця, використання системи ШІ для пошуку схожих випадків може призвести до неправильних діагнозів, якщо модель не розрізняє наявність і відсутність певних станів.

«Слова-заперечення можуть мати дуже суттєвий вплив, і якщо ми будемо сліпо використовувати ці моделі, можемо зіткнутися з катастрофічними наслідками», — застерігає провідний автор Альхамуд. Під час тестування на здатність розпізнавати заперечення в підписах до зображень моделі показали результати, не кращі за випадкове вгадування.

Щоб вирішити цю проблему, дослідники розробили NegBench — комплексний бенчмарк із 79 000 прикладів у 18 варіаціях завдань, що охоплюють зображення, відео та медичні набори даних. Бенчмарк оцінює дві ключові здібності: пошук зображень за запитами із запереченням і відповіді на тести з кількома варіантами вибору, де підписи містять заперечення.

Команда також створила набори даних із прикладами, що містять заперечення, для повторного навчання моделей, досягнувши покращення показника recall на 10% для запитів із запереченням і підвищення точності на 28% у тестах із кількома варіантами вибору. Втім, дослідники наголошують, що для розв’язання корінних причин цієї проблеми потрібно ще більше роботи.

«Якщо щось настільки фундаментальне, як заперечення, не працює, ми не повинні використовувати великі візуально-мовні моделі у багатьох сферах так, як робимо це зараз — без ретельної перевірки», — підкреслює Гассемі.

Дослідження буде представлено на майбутній конференції з комп’ютерного зору та розпізнавання образів, що підкреслює нагальну потребу у більш надійних системах ШІ для критичних сфер, зокрема охорони здоров’я.

Source:

Latest News