Критичен недостатък в системите за изкуствен интелект, използвани за анализ на медицински изображения, може да изложи пациентите на риск, сочи ново изследване на MIT, публикувано тази седмица.
Проучването, ръководено от докторанта Кумайл Алхамуд и доц. Марзие Гасеми, разкрива, че визионно-езиковите модели (VLMs) – AI системи, широко внедрени в здравеопазването – по същество не разбират думи за отрицание като „не“ и „няма“ при анализ на медицински изображения.
„Тези думи за отрицание могат да имат много съществено значение и ако използваме тези модели сляпо, може да се сблъскаме с катастрофални последици“, предупреждава Алхамуд, водещ автор на изследването.
Изследователите демонстрират този проблем чрез клиничен пример: ако рентгенолог разглежда рентгенова снимка на гръден кош, показваща оток на тъканите, но без уголемено сърце, AI системата може погрешно да извлече случаи и с двете състояния, което потенциално води до напълно различна диагноза. При формални тестове тези AI модели се представят не по-добре от случайно познаване при задачи с отрицание.
За да се справят с този критичен недостатък, екипът е разработил NegBench – цялостна рамка за оценка, обхващаща 18 вариации на задачи и 79 000 примера от изображения, видео и медицински набори от данни. Предложеното от тях решение включва повторно обучение на VLMs със специално създадени набори от данни, съдържащи милиони отрицателни описания, което показва обещаващи резултати – подобрение на recall при заявки с отрицание с 10% и повишаване на точността при въпроси с избор от няколко възможности с отрицателни описания с 28%.
„Ако нещо толкова фундаментално като отрицанието не работи, не трябва да използваме големи визионно-езикови модели по начина, по който ги използваме сега – без задълбочена оценка“, предупреждава Гасеми, подчертавайки необходимостта от внимателна проверка преди внедряването на тези системи в критично важни медицински среди.
Изследването, в което участват и сътрудници от OpenAI и Оксфордския университет, ще бъде представено на предстоящата Конференция по компютърно зрение и разпознаване на образи. Екипът е направил своя бенчмарк и код публично достъпни, за да помогне за решаването на този ключов проблем с безопасността на AI.