Критична вада в системах штучного інтелекту, що використовуються для аналізу медичних зображень, може наражати пацієнтів на небезпеку — про це йдеться у новому дослідженні MIT, опублікованому цього тижня.
Дослідження під керівництвом аспіранта Кумайла Альхамуда та доцентки Марз’є Гассемі показує, що візуально-мовні моделі (VLMs) — системи ШІ, які широко впроваджуються у медичних закладах, фундаментально не розуміють заперечення на кшталт «ні» та «не» під час аналізу медичних зображень.
«Такі слова-заперечення можуть мати дуже суттєвий вплив, і якщо ми будемо сліпо використовувати ці моделі, це може призвести до катастрофічних наслідків», — попереджає Альхамуд, головний автор дослідження.
Дослідники продемонстрували цю проблему на клінічному прикладі: якщо радіолог аналізує рентген грудної клітки, де видно набряк тканин, але немає збільшеного серця, система ШІ може некоректно знайти випадки з обома станами, що може призвести до зовсім іншого діагнозу. Під час формального тестування ці моделі ШІ показали результати не кращі за випадкове вгадування у завданнях із запереченням.
Щоб вирішити цю критичну проблему, команда розробила NegBench — комплексну оціночну платформу, що охоплює 18 варіацій завдань і 79 000 прикладів зображень, відео та медичних датасетів. Запропоноване рішення передбачає перенавчання VLM на спеціально створених наборах даних із мільйонами підписів із запереченням, що вже дало обнадійливі результати: покращення recall на запитах із запереченням на 10% та зростання точності у тестах із множинним вибором із запереченням на 28%.
«Якщо щось настільки фундаментальне, як заперечення, не працює, ми не повинні використовувати великі візуально-мовні моделі так, як це відбувається зараз — без ретельної оцінки», — наголошує Гассемі, підкреслюючи необхідність уважної перевірки перед впровадженням таких систем у критично важливих медичних середовищах.
Дослідження, до якого долучилися співробітники OpenAI та Оксфордського університету, буде представлено на майбутній конференції з комп’ютерного зору та розпізнавання образів. Команда зробила свій бенчмарк і код публічно доступними, щоб допомогти вирішити цю критичну проблему безпеки ШІ.