menu
close

Medicínske AI systémy nedokážu pochopiť negáciu pri analýze snímok

Výskumníci z MIT zistili, že vizuálno-jazykové modely používané v medicínskej diagnostike nerozumejú negáciám ako 'nie' a 'ne', čo môže viesť k nebezpečným chybným diagnózam. Pri testovaní na úlohách s negáciou tieto AI systémy dosahovali výsledky porovnateľné s náhodným tipovaním, čo vyvoláva vážne obavy o ich nasadenie v zdravotníctve. Vedci vyvinuli nový benchmark s názvom NegBench a navrhli riešenia, ktoré môžu zlepšiť porozumenie negácie až o 28%.
Medicínske AI systémy nedokážu pochopiť negáciu pri analýze snímok

Zásadná chyba v systémoch umelej inteligencie používaných na analýzu medicínskych snímok môže podľa nového výskumu MIT ohroziť pacientov.

Štúdia, ktorú viedli doktorand Kumail Alhamoud a docentka Marzyeh Ghassemi, ukazuje, že vizuálno-jazykové modely (VLM) – AI systémy široko nasadzované v zdravotníctve – zásadne zlyhávajú v porozumení negáciám ako 'nie' a 'ne' pri analýze medicínskych snímok.

"Tieto negácie môžu mať veľmi významný dopad a ak tieto modely používame bezhlavo, môžeme naraziť na katastrofálne dôsledky," varuje Alhamoud, hlavný autor štúdie.

Výskumníci demonštrovali tento problém na klinickom príklade: ak rádiológ skúma snímku hrudníka, kde je opuch tkaniva, ale nie zväčšené srdce, AI systém môže nesprávne vyhľadať prípady s oboma stavmi, čo môže viesť k úplne inej diagnóze. Pri formálnom testovaní dosahovali tieto modely v úlohách s negáciou výsledky porovnateľné s náhodným tipovaním.

Aby tím tento zásadný nedostatok riešil, vyvinul NegBench – komplexný hodnotiaci rámec pokrývajúci 18 typov úloh a 79 000 príkladov naprieč obrazovými, video a medicínskymi datasetmi. Navrhované riešenie spočíva v pretrénovaní VLM na špeciálne vytvorených datasetoch s miliónmi negovaných popisov, čo prinieslo sľubné výsledky – zlepšenie recallu pri negovaných dotazoch o 10 % a zvýšenie presnosti pri výbere správnej odpovede v otázkach s negovanými popismi až o 28 %.

"Ak je niečo také základné ako negácia pokazené, nemali by sme veľké vizuálno-jazykové modely používať v mnohých oblastiach tak, ako ich používame dnes – bez dôkladného hodnotenia," upozorňuje Ghassemi a zdôrazňuje potrebu opatrného nasadzovania týchto systémov v medicínsky kritických prostrediach.

Výskum, na ktorom spolupracovali aj odborníci z OpenAI a Oxfordskej univerzity, bude prezentovaný na nadchádzajúcej konferencii Computer Vision and Pattern Recognition. Tím sprístupnil svoj benchmark a kód verejnosti, aby pomohol riešiť tento zásadný problém bezpečnosti AI.

Source:

Latest News