menu
close

Медичні системи ШІ не розуміють заперечення у аналізі зображень

Дослідники з MIT виявили, що візуально-мовні моделі, які використовуються для медичної візуалізації, не здатні розпізнавати заперечення на кшталт «ні» та «не», що може призвести до небезпечних помилкових діагнозів. Під час тестування на завданнях із запереченням ці системи показали результати не кращі за випадкове вгадування, що викликає серйозні побоювання щодо їх використання у сфері охорони здоров’я. Дослідники розробили новий бенчмарк NegBench і запропонували рішення, які можуть покращити розуміння заперечення до 28%.
Медичні системи ШІ не розуміють заперечення у аналізі зображень

Критична вада в системах штучного інтелекту, що використовуються для аналізу медичних зображень, може наражати пацієнтів на небезпеку — про це йдеться у новому дослідженні MIT, опублікованому цього тижня.

Дослідження під керівництвом аспіранта Кумайла Альхамуда та доцентки Марз’є Гассемі показує, що візуально-мовні моделі (VLMs) — системи ШІ, які широко впроваджуються у медичних закладах, фундаментально не розуміють заперечення на кшталт «ні» та «не» під час аналізу медичних зображень.

«Такі слова-заперечення можуть мати дуже суттєвий вплив, і якщо ми будемо сліпо використовувати ці моделі, це може призвести до катастрофічних наслідків», — попереджає Альхамуд, головний автор дослідження.

Дослідники продемонстрували цю проблему на клінічному прикладі: якщо радіолог аналізує рентген грудної клітки, де видно набряк тканин, але немає збільшеного серця, система ШІ може некоректно знайти випадки з обома станами, що може призвести до зовсім іншого діагнозу. Під час формального тестування ці моделі ШІ показали результати не кращі за випадкове вгадування у завданнях із запереченням.

Щоб вирішити цю критичну проблему, команда розробила NegBench — комплексну оціночну платформу, що охоплює 18 варіацій завдань і 79 000 прикладів зображень, відео та медичних датасетів. Запропоноване рішення передбачає перенавчання VLM на спеціально створених наборах даних із мільйонами підписів із запереченням, що вже дало обнадійливі результати: покращення recall на запитах із запереченням на 10% та зростання точності у тестах із множинним вибором із запереченням на 28%.

«Якщо щось настільки фундаментальне, як заперечення, не працює, ми не повинні використовувати великі візуально-мовні моделі так, як це відбувається зараз — без ретельної оцінки», — наголошує Гассемі, підкреслюючи необхідність уважної перевірки перед впровадженням таких систем у критично важливих медичних середовищах.

Дослідження, до якого долучилися співробітники OpenAI та Оксфордського університету, буде представлено на майбутній конференції з комп’ютерного зору та розпізнавання образів. Команда зробила свій бенчмарк і код публічно доступними, щоб допомогти вирішити цю критичну проблему безпеки ШІ.

Source:

Latest News