AI визуалните модели не разбират отрицание, което крие риск от медицински грешки

Изследователи от MIT установиха, че визуално-езиковите модели (VLMs) не разбират думи за отрицание като „не“ и „няма“, като се представят не по-добре от случайно познаване на тестове. Този фундаментален недостатък може да доведе до сериозни диагностични грешки в здравеопазването, където разграничаването между налични и липсващи състояния е от критично значение. Екипът, ръководен от Кумайл Алхамуд и Марзие Гасеми, създаде бенчмарк, наречен NegBench, за оценка и подобряване на тези модели.

Революционно изследване на MIT разкрива критичен недостатък във визуално-езиковите модели (VLMs), който може да има сериозни последици за тяхното използване в здравеопазването и други сфери с висок залог.

В проучването изследователите от MIT откриват, че VLMs са изключително склонни да допускат грешки в реални ситуации, тъй като не разбират отрицание — думи като „не“ и „няма“, които посочват кое е невярно или отсъстващо. „Тези думи за отрицание могат да имат много значително въздействие и ако използваме тези модели сляпо, може да се сблъскаме с катастрофални последици“, казва Кумайл Алхамуд, докторант в MIT и водещ автор на изследването.

Изследователите илюстрират проблема с медицински пример: Представете си рентгенолог, който разглежда гръден рентген и забелязва, че пациентът има оток на тъканите, но няма уголемено сърце. В такава ситуация визуално-езиковите модели вероятно няма да могат да разграничат тези състояния. Ако моделът погрешно идентифицира доклади и с двете състояния, диагностичните последици могат да бъдат значителни: пациент с оток на тъканите и уголемено сърце вероятно има сърдечно заболяване, но без уголемено сърце може да има множество различни причини.

При тестване на способността на визуално-езиковите модели да разпознават отрицание в описания на изображения, изследователите установяват, че моделите често се представят толкова добре, колкото и случайното познаване. Въз основа на тези резултати екипът създава набор от данни с изображения и съответните им описания, които включват думи за отрицание, описващи липсващи обекти. Те показват, че повторното обучение на визуално-езиков модел с този набор от данни води до подобрение при задачи, в които моделът трябва да открие изображения, в които определени обекти отсъстват. Това също повишава точността при въпроси с избор от няколко възможности, съдържащи отрицателни описания. Въпреки това изследователите предупреждават, че е необходимо още работа за справяне с основните причини на проблема.

„Това не се отнася само за думи като „не“ и „няма“. Без значение как изразявате отрицание или изключване, моделите просто го игнорират“, казва Алхамуд. Това се потвърждава при всички VLMs, които тествали. Основният проблем произтича от начина, по който тези модели се обучават. „Описанията изразяват какво има на изображенията — те са положителен етикет. И точно това е целият проблем. Никой не гледа снимка на куче, което скача над ограда, и не я описва с „куче скача над ограда, без хеликоптери“, обяснява старшият автор Марзие Гасеми. Тъй като наборите от данни с изображения и описания не съдържат примери с отрицание, VLMs никога не се научават да го разпознават.

„Ако нещо толкова фундаментално като отрицанието не работи, не бива да използваме големи визуално-езикови модели по начина, по който ги използваме сега — без задълбочена оценка“, казва Гасеми, доцент в катедрата по електроинженерство и компютърни науки и член на Института по медицински инженерни науки. Изследването, което ще бъде представено на Конференцията по компютърно зрение и разпознаване на образи, е проведено от екип с участници от MIT, OpenAI и Оксфордския университет.

Това откритие има сериозни последици за области с висок риск като мониторинг на безопасността и здравеопазването. Работата на изследователите, която включва разработването на NegBench — цялостен бенчмарк за оценка на визуално-езикови модели при задачи, свързани с отрицание, представлява важна стъпка към по-устойчиви AI системи с по-фино езиково разбиране, с критично значение за медицинската диагностика и семантичното извличане на съдържание.

AI визуалните модели не разбират отрицание, което крие риск от медицински грешки

Latest News

ByteDance добавя функция за видео асистенция в реално време към Doubao AI

OnePlus се отказва от Alert Slider в полза на AI-бутон Plus Key

Германски технологични гиганти се обединяват за подкрепяна от ЕС AI гигафабрика

Американските прокурори разследваха Builder.ai преди краха на AI стартъпа за 1,5 млрд. долара

Норвежкият фонд за 1,8 трилиона долара прави изкуствения интелект задължителен за служителите си

OpenTools.ai представя AI новинарски хъб за технологични професионалисти

Google разширява контрола на компютъра чрез AI за разработчици с Gemini

Google подобрява моделите Gemini с прозрачни обобщения на мисловния процес

AI визуалните модели не разбират отрицание, което крие риск от медицински грешки

Related Articles

OnePlus се отказва от Alert Slider в полза на AI-бутон Plus Key

Германски технологични гиганти се обединяват за подкрепяна от ЕС AI гигафабрика

Американските прокурори разследваха Builder.ai преди краха на AI стартъпа за 1,5 млрд. долара

Latest News

ByteDance добавя функция за видео асистенция в реално време към Doubao AI

OnePlus се отказва от Alert Slider в полза на AI-бутон Plus Key

Германски технологични гиганти се обединяват за подкрепяна от ЕС AI гигафабрика

Американските прокурори разследваха Builder.ai преди краха на AI стартъпа за 1,5 млрд. долара

Норвежкият фонд за 1,8 трилиона долара прави изкуствения интелект задължителен за служителите си

OpenTools.ai представя AI новинарски хъб за технологични професионалисти

Google разширява контрола на компютъра чрез AI за разработчици с Gemini

Google подобрява моделите Gemini с прозрачни обобщения на мисловния процес