Zásadní nedostatek systémů umělé inteligence používaných k analýze lékařských snímků může podle nové studie MIT ohrozit pacienty.
Studii vedli doktorand Kumail Alhamoud a docentka Marzyeh Ghassemi. Zjistili, že vizuálně-jazykové modely (VLM) – systémy AI široce nasazované ve zdravotnictví – zásadně selhávají v porozumění negacím jako 'ne' a 'není' při analýze lékařských snímků.
"Negace mohou mít velmi zásadní dopad. Pokud tyto modely používáme bez rozmyslu, můžeme narazit na katastrofální důsledky," varuje Alhamoud, hlavní autor studie.
Výzkumníci demonstrovali tento problém na klinickém příkladu: pokud radiolog zkoumá rentgen hrudníku, kde je patrný otok tkáně, ale není zvětšené srdce, AI systém může chybně vyhledat případy s oběma stavy, což může vést k úplně jiné diagnóze. Při formálním testování si tyto AI modely v úlohách s negací nevedly lépe než náhodné tipování.
Aby tým tento zásadní nedostatek řešil, vyvinul NegBench – komplexní hodnoticí rámec pokrývající 18 variant úloh a 79 000 příkladů napříč obrazovými, video a lékařskými datovými sadami. Navržené řešení spočívá v přeškolení VLM na speciálně vytvořených datech obsahujících miliony negovaných popisků, což přineslo slibné výsledky – zlepšení recallu u negovaných dotazů o 10 % a zvýšení přesnosti u otázek s negovanými popisky ve formátu multiple-choice o 28 %.
"Pokud je něco tak zásadního, jako je negace, rozbité, neměli bychom velké vizuálně-jazykové modely používat v tolika případech, jak je používáme dnes – bez důkladného testování," upozorňuje Ghassemi a zdůrazňuje nutnost pečlivého posouzení před nasazením těchto systémů v kritických lékařských prostředích.
Výzkum, na kterém spolupracovali i odborníci z OpenAI a Oxfordské univerzity, bude představen na nadcházející konferenci Computer Vision and Pattern Recognition. Tým zveřejnil svůj benchmark i kód, aby pomohl řešit tento zásadní problém bezpečnosti AI.