Zásadná chyba v systémoch umelej inteligencie používaných na analýzu medicínskych snímok môže podľa nového výskumu MIT ohroziť pacientov.
Štúdia, ktorú viedli doktorand Kumail Alhamoud a docentka Marzyeh Ghassemi, ukazuje, že vizuálno-jazykové modely (VLM) – AI systémy široko nasadzované v zdravotníctve – zásadne zlyhávajú v porozumení negáciám ako 'nie' a 'ne' pri analýze medicínskych snímok.
"Tieto negácie môžu mať veľmi významný dopad a ak tieto modely používame bezhlavo, môžeme naraziť na katastrofálne dôsledky," varuje Alhamoud, hlavný autor štúdie.
Výskumníci demonštrovali tento problém na klinickom príklade: ak rádiológ skúma snímku hrudníka, kde je opuch tkaniva, ale nie zväčšené srdce, AI systém môže nesprávne vyhľadať prípady s oboma stavmi, čo môže viesť k úplne inej diagnóze. Pri formálnom testovaní dosahovali tieto modely v úlohách s negáciou výsledky porovnateľné s náhodným tipovaním.
Aby tím tento zásadný nedostatok riešil, vyvinul NegBench – komplexný hodnotiaci rámec pokrývajúci 18 typov úloh a 79 000 príkladov naprieč obrazovými, video a medicínskymi datasetmi. Navrhované riešenie spočíva v pretrénovaní VLM na špeciálne vytvorených datasetoch s miliónmi negovaných popisov, čo prinieslo sľubné výsledky – zlepšenie recallu pri negovaných dotazoch o 10 % a zvýšenie presnosti pri výbere správnej odpovede v otázkach s negovanými popismi až o 28 %.
"Ak je niečo také základné ako negácia pokazené, nemali by sme veľké vizuálno-jazykové modely používať v mnohých oblastiach tak, ako ich používame dnes – bez dôkladného hodnotenia," upozorňuje Ghassemi a zdôrazňuje potrebu opatrného nasadzovania týchto systémov v medicínsky kritických prostrediach.
Výskum, na ktorom spolupracovali aj odborníci z OpenAI a Oxfordskej univerzity, bude prezentovaný na nadchádzajúcej konferencii Computer Vision and Pattern Recognition. Tím sprístupnil svoj benchmark a kód verejnosti, aby pomohol riešiť tento zásadný problém bezpečnosti AI.