menu
close

Моделі комп’ютерного зору з ШІ не розуміють заперечення, що загрожує медичними помилками

Дослідники з MIT виявили, що моделі комп’ютерного зору з мовним розумінням (VLM) не здатні розпізнавати слова-заперечення, такі як «ні» та «не», і під час тестування їхня точність не перевищує випадкове вгадування. Ця фундаментальна вада може призвести до серйозних діагностичних помилок у медицині, де критично важливо розрізняти наявність і відсутність станів. Команда під керівництвом Кумайла Альхамуда та Марзіє Гассемі розробила еталон NegBench для оцінки та вдосконалення таких моделей.
Моделі комп’ютерного зору з ШІ не розуміють заперечення, що загрожує медичними помилками

Революційне дослідження MIT виявило критичний недолік у моделях комп’ютерного зору з мовним розумінням (VLM), що може мати серйозні наслідки для їхнього використання в медицині та інших сферах із підвищеним рівнем відповідальності.

У ході дослідження науковці MIT з’ясували, що VLM надзвичайно схильні до помилок у реальних ситуаціях, оскільки не розуміють заперечення — слова на кшталт «ні» та «не», які вказують на відсутність або хибність чогось. «Такі слова-заперечення можуть мати дуже суттєвий вплив, і якщо ми будемо сліпо використовувати ці моделі, це може призвести до катастрофічних наслідків», — зазначає Кумайл Альхамуд, аспірант MIT і провідний автор дослідження.

Дослідники ілюструють проблему на медичному прикладі: уявіть, що радіолог розглядає рентген грудної клітки й бачить, що у пацієнта є набряк тканин, але немає збільшеного серця. У такій ситуації моделі комп’ютерного зору з мовним розумінням, ймовірно, не зможуть розрізнити ці стани. Якщо модель помилково визначить, що в обох випадках присутні обидва стани, це може суттєво вплинути на діагностику: пацієнт із набряком тканин і збільшеним серцем, ймовірно, має кардіологічну проблему, а без збільшеного серця причини можуть бути зовсім іншими.

Під час тестування здатності VLM розпізнавати заперечення в підписах до зображень дослідники виявили, що моделі часто працюють не краще за випадкове вгадування. Спираючись на ці результати, команда створила датасет зображень із відповідними підписами, які містять слова-заперечення для опису відсутніх об’єктів. Вони показали, що перенавчання моделі на цьому датасеті покращує її результати при пошуку зображень без певних об’єктів, а також підвищує точність відповідей на питання з множинним вибором із запереченням у підписах. Водночас дослідники застерігають, що для вирішення цієї проблеми потрібно ще багато роботи.

«Це стосується не лише слів “ні” та “не”. Незалежно від того, як саме ви виражаєте заперечення чи виключення, моделі просто ігнорують це», — каже Альхамуд. Це спостерігалося у всіх VLM, які вони тестували. Корінь проблеми — у способі навчання цих моделей. «Підписи зазвичай описують, що є на зображенні — це позитивна мітка. І саме в цьому полягає вся проблема. Ніхто не підписує зображення собаки, яка стрибає через паркан, словами “собака стрибає через паркан, без гелікоптерів”», — пояснює старша авторка Марзіє Гассемі. Оскільки в датасетах із підписами до зображень немає прикладів із запереченням, VLM так і не навчаються їх розпізнавати.

«Якщо настільки фундаментальна річ, як заперечення, не працює, ми не повинні використовувати великі моделі комп’ютерного зору/мови так, як це робимо зараз — без ґрунтовної перевірки», — наголошує Гассемі, доцентка кафедри електротехніки та комп’ютерних наук MIT і членкиня Інституту медичної інженерії та наук. Дослідження, результати якого представлять на конференції з комп’ютерного зору та розпізнавання образів, виконала команда з MIT, OpenAI та Оксфордського університету.

Це відкриття має велике значення для таких критичних сфер, як моніторинг безпеки та охорона здоров’я. Робота дослідників, зокрема розробка NegBench — комплексного еталону для оцінки VLM на завданнях із запереченням, є важливим кроком до створення більш надійних систем ШІ, здатних до тонкого мовного розуміння, що має вирішальне значення для медичної діагностики та семантичного пошуку контенту.

Source: Mit

Latest News