Моделі комп’ютерного зору з ШІ провалюють критичний тест на розуміння заперечення в медичній візуалізації

Дослідники MIT виявили, що візуально-мовні моделі, які широко застосовуються для аналізу медичних зображень, не здатні розуміти слова-заперечення, такі як «ні» та «не». Це критичне обмеження може призвести до серйозних діагностичних помилок, коли ці системи ШІ використовують для пошуку медичних зображень за конкретними критеріями. У дослідженні, опублікованому 14 травня 2025 року, представлено NegBench — новий бенчмарк для оцінки та покращення розуміння заперечення в системах комп’ютерного зору.

Нове дослідження вчених MIT виявило фундаментальний недолік візуально-мовних моделей (VLM), який може мати серйозні наслідки для медичної діагностики та інших критичних сфер застосування.

Дослідницька група під керівництвом Кумайла Альхамуда та провідної авторки Марзіє Гассемі з кафедри електротехніки та комп’ютерних наук MIT встановила, що ці системи штучного інтелекту — які дедалі частіше використовуються для аналізу медичних зображень — не здатні розпізнавати слова-заперечення, такі як «ні» та «не» у запитах.

Це обмеження стає особливо проблематичним у медичних контекстах. Наприклад, коли радіолог аналізує рентген грудної клітки з набряком тканин, але без збільшеного серця, використання системи ШІ для пошуку схожих випадків може призвести до неправильних діагнозів, якщо модель не розрізняє наявність і відсутність певних станів.

«Слова-заперечення можуть мати дуже суттєвий вплив, і якщо ми будемо сліпо використовувати ці моделі, можемо зіткнутися з катастрофічними наслідками», — застерігає провідний автор Альхамуд. Під час тестування на здатність розпізнавати заперечення в підписах до зображень моделі показали результати, не кращі за випадкове вгадування.

Щоб вирішити цю проблему, дослідники розробили NegBench — комплексний бенчмарк із 79 000 прикладів у 18 варіаціях завдань, що охоплюють зображення, відео та медичні набори даних. Бенчмарк оцінює дві ключові здібності: пошук зображень за запитами із запереченням і відповіді на тести з кількома варіантами вибору, де підписи містять заперечення.

Команда також створила набори даних із прикладами, що містять заперечення, для повторного навчання моделей, досягнувши покращення показника recall на 10% для запитів із запереченням і підвищення точності на 28% у тестах із кількома варіантами вибору. Втім, дослідники наголошують, що для розв’язання корінних причин цієї проблеми потрібно ще більше роботи.

«Якщо щось настільки фундаментальне, як заперечення, не працює, ми не повинні використовувати великі візуально-мовні моделі у багатьох сферах так, як робимо це зараз — без ретельної перевірки», — підкреслює Гассемі.

Дослідження буде представлено на майбутній конференції з комп’ютерного зору та розпізнавання образів, що підкреслює нагальну потребу у більш надійних системах ШІ для критичних сфер, зокрема охорони здоров’я.

Source:

Моделі комп’ютерного зору з ШІ провалюють критичний тест на розуміння заперечення в медичній візуалізації

Latest News

Doubao AI від ByteDance тепер пропонує допомогу у режимі реального часу через відеозв’язок

OnePlus відмовляється від повзунка сповіщень на користь кнопки Plus Key з підтримкою ШІ

Німецькі технологічні гіганти об'єдналися для створення AI-гігафабрики за підтримки ЄС

Прокурори США розслідували Builder.ai перед крахом AI-стартапу вартістю $1,5 млрд

Норвезький фонд на $1,8 трлн робить використання ШІ обов’язковим для співробітників

OpenTools.ai презентує AI News Hub для ІТ-фахівців

Google розширює можливості керування комп’ютером за допомогою ШІ для розробників через Gemini

Google вдосконалює моделі Gemini прозорими підсумками мислення

Моделі комп’ютерного зору з ШІ провалюють критичний тест на розуміння заперечення в медичній візуалізації

Related Articles

Моделі Claude 4 від Anthropic встановили новий еталон у програмуванні ШІ

Аналітики зберігають рейтинг «Помірно купувати» для CCC Intelligent Solutions

NASA презентує амбітну стратегію застосування ШІ для наступного десятиліття космічних досліджень

Колишній науковець OpenAI планував бункер для пост-АГІ світу

Latest News

Doubao AI від ByteDance тепер пропонує допомогу у режимі реального часу через відеозв’язок

OnePlus відмовляється від повзунка сповіщень на користь кнопки Plus Key з підтримкою ШІ

Німецькі технологічні гіганти об'єдналися для створення AI-гігафабрики за підтримки ЄС

Прокурори США розслідували Builder.ai перед крахом AI-стартапу вартістю $1,5 млрд

Норвезький фонд на $1,8 трлн робить використання ШІ обов’язковим для співробітників

OpenTools.ai презентує AI News Hub для ІТ-фахівців

Google розширює можливості керування комп’ютером за допомогою ШІ для розробників через Gemini

Google вдосконалює моделі Gemini прозорими підсумками мислення