menu
close

AI визуалните модели не разбират отрицание, което крие риск от медицински грешки

Изследователи от MIT установиха, че визуално-езиковите модели (VLMs) не разбират думи за отрицание като „не“ и „няма“, като се представят не по-добре от случайно познаване на тестове. Този фундаментален недостатък може да доведе до сериозни диагностични грешки в здравеопазването, където разграничаването между налични и липсващи състояния е от критично значение. Екипът, ръководен от Кумайл Алхамуд и Марзие Гасеми, създаде бенчмарк, наречен NegBench, за оценка и подобряване на тези модели.
AI визуалните модели не разбират отрицание, което крие риск от медицински грешки

Революционно изследване на MIT разкрива критичен недостатък във визуално-езиковите модели (VLMs), който може да има сериозни последици за тяхното използване в здравеопазването и други сфери с висок залог.

В проучването изследователите от MIT откриват, че VLMs са изключително склонни да допускат грешки в реални ситуации, тъй като не разбират отрицание — думи като „не“ и „няма“, които посочват кое е невярно или отсъстващо. „Тези думи за отрицание могат да имат много значително въздействие и ако използваме тези модели сляпо, може да се сблъскаме с катастрофални последици“, казва Кумайл Алхамуд, докторант в MIT и водещ автор на изследването.

Изследователите илюстрират проблема с медицински пример: Представете си рентгенолог, който разглежда гръден рентген и забелязва, че пациентът има оток на тъканите, но няма уголемено сърце. В такава ситуация визуално-езиковите модели вероятно няма да могат да разграничат тези състояния. Ако моделът погрешно идентифицира доклади и с двете състояния, диагностичните последици могат да бъдат значителни: пациент с оток на тъканите и уголемено сърце вероятно има сърдечно заболяване, но без уголемено сърце може да има множество различни причини.

При тестване на способността на визуално-езиковите модели да разпознават отрицание в описания на изображения, изследователите установяват, че моделите често се представят толкова добре, колкото и случайното познаване. Въз основа на тези резултати екипът създава набор от данни с изображения и съответните им описания, които включват думи за отрицание, описващи липсващи обекти. Те показват, че повторното обучение на визуално-езиков модел с този набор от данни води до подобрение при задачи, в които моделът трябва да открие изображения, в които определени обекти отсъстват. Това също повишава точността при въпроси с избор от няколко възможности, съдържащи отрицателни описания. Въпреки това изследователите предупреждават, че е необходимо още работа за справяне с основните причини на проблема.

„Това не се отнася само за думи като „не“ и „няма“. Без значение как изразявате отрицание или изключване, моделите просто го игнорират“, казва Алхамуд. Това се потвърждава при всички VLMs, които тествали. Основният проблем произтича от начина, по който тези модели се обучават. „Описанията изразяват какво има на изображенията — те са положителен етикет. И точно това е целият проблем. Никой не гледа снимка на куче, което скача над ограда, и не я описва с „куче скача над ограда, без хеликоптери“, обяснява старшият автор Марзие Гасеми. Тъй като наборите от данни с изображения и описания не съдържат примери с отрицание, VLMs никога не се научават да го разпознават.

„Ако нещо толкова фундаментално като отрицанието не работи, не бива да използваме големи визуално-езикови модели по начина, по който ги използваме сега — без задълбочена оценка“, казва Гасеми, доцент в катедрата по електроинженерство и компютърни науки и член на Института по медицински инженерни науки. Изследването, което ще бъде представено на Конференцията по компютърно зрение и разпознаване на образи, е проведено от екип с участници от MIT, OpenAI и Оксфордския университет.

Това откритие има сериозни последици за области с висок риск като мониторинг на безопасността и здравеопазването. Работата на изследователите, която включва разработването на NegBench — цялостен бенчмарк за оценка на визуално-езикови модели при задачи, свързани с отрицание, представлява важна стъпка към по-устойчиви AI системи с по-фино езиково разбиране, с критично значение за медицинската диагностика и семантичното извличане на съдържание.

Source: Mit

Latest News