Медичні системи ШІ не розуміють заперечення у аналізі зображень

Дослідники з MIT виявили, що візуально-мовні моделі, які використовуються для медичної візуалізації, не здатні розпізнавати заперечення на кшталт «ні» та «не», що може призвести до небезпечних помилкових діагнозів. Під час тестування на завданнях із запереченням ці системи показали результати не кращі за випадкове вгадування, що викликає серйозні побоювання щодо їх використання у сфері охорони здоров’я. Дослідники розробили новий бенчмарк NegBench і запропонували рішення, які можуть покращити розуміння заперечення до 28%.

Критична вада в системах штучного інтелекту, що використовуються для аналізу медичних зображень, може наражати пацієнтів на небезпеку — про це йдеться у новому дослідженні MIT, опублікованому цього тижня.

Дослідження під керівництвом аспіранта Кумайла Альхамуда та доцентки Марз’є Гассемі показує, що візуально-мовні моделі (VLMs) — системи ШІ, які широко впроваджуються у медичних закладах, фундаментально не розуміють заперечення на кшталт «ні» та «не» під час аналізу медичних зображень.

«Такі слова-заперечення можуть мати дуже суттєвий вплив, і якщо ми будемо сліпо використовувати ці моделі, це може призвести до катастрофічних наслідків», — попереджає Альхамуд, головний автор дослідження.

Дослідники продемонстрували цю проблему на клінічному прикладі: якщо радіолог аналізує рентген грудної клітки, де видно набряк тканин, але немає збільшеного серця, система ШІ може некоректно знайти випадки з обома станами, що може призвести до зовсім іншого діагнозу. Під час формального тестування ці моделі ШІ показали результати не кращі за випадкове вгадування у завданнях із запереченням.

Щоб вирішити цю критичну проблему, команда розробила NegBench — комплексну оціночну платформу, що охоплює 18 варіацій завдань і 79 000 прикладів зображень, відео та медичних датасетів. Запропоноване рішення передбачає перенавчання VLM на спеціально створених наборах даних із мільйонами підписів із запереченням, що вже дало обнадійливі результати: покращення recall на запитах із запереченням на 10% та зростання точності у тестах із множинним вибором із запереченням на 28%.

«Якщо щось настільки фундаментальне, як заперечення, не працює, ми не повинні використовувати великі візуально-мовні моделі так, як це відбувається зараз — без ретельної оцінки», — наголошує Гассемі, підкреслюючи необхідність уважної перевірки перед впровадженням таких систем у критично важливих медичних середовищах.

Дослідження, до якого долучилися співробітники OpenAI та Оксфордського університету, буде представлено на майбутній конференції з комп’ютерного зору та розпізнавання образів. Команда зробила свій бенчмарк і код публічно доступними, щоб допомогти вирішити цю критичну проблему безпеки ШІ.

Source:

Медичні системи ШІ не розуміють заперечення у аналізі зображень

Latest News

Doubao AI від ByteDance тепер пропонує допомогу у режимі реального часу через відеозв’язок

OnePlus відмовляється від повзунка сповіщень на користь кнопки Plus Key з підтримкою ШІ

Німецькі технологічні гіганти об'єдналися для створення AI-гігафабрики за підтримки ЄС

Прокурори США розслідували Builder.ai перед крахом AI-стартапу вартістю $1,5 млрд

Норвезький фонд на $1,8 трлн робить використання ШІ обов’язковим для співробітників

OpenTools.ai презентує AI News Hub для ІТ-фахівців

Google розширює можливості керування комп’ютером за допомогою ШІ для розробників через Gemini

Google вдосконалює моделі Gemini прозорими підсумками мислення

Медичні системи ШІ не розуміють заперечення у аналізі зображень

Related Articles

OnePlus відмовляється від повзунка сповіщень на користь кнопки Plus Key з підтримкою ШІ

Німецькі технологічні гіганти об'єдналися для створення AI-гігафабрики за підтримки ЄС

Прокурори США розслідували Builder.ai перед крахом AI-стартапу вартістю $1,5 млрд

Latest News

Doubao AI від ByteDance тепер пропонує допомогу у режимі реального часу через відеозв’язок

OnePlus відмовляється від повзунка сповіщень на користь кнопки Plus Key з підтримкою ШІ

Німецькі технологічні гіганти об'єдналися для створення AI-гігафабрики за підтримки ЄС

Прокурори США розслідували Builder.ai перед крахом AI-стартапу вартістю $1,5 млрд

Норвезький фонд на $1,8 трлн робить використання ШІ обов’язковим для співробітників

OpenTools.ai презентує AI News Hub для ІТ-фахівців

Google розширює можливості керування комп’ютером за допомогою ШІ для розробників через Gemini

Google вдосконалює моделі Gemini прозорими підсумками мислення