Nová štúdia výskumníkov z MIT odhalila zásadnú chybu v modeloch vizuálneho rozpoznávania a jazyka (VLM), ktorá môže mať vážne dôsledky pre medicínsku diagnostiku a ďalšie kritické aplikácie.
Výskumný tím pod vedením Kumaila Alhamouda a hlavnej autorky Marzyeh Ghassemi z Katedry elektrotechniky a informatiky MIT zistil, že tieto AI systémy – čoraz častejšie využívané na analýzu medicínskych snímok – nedokážu v dopytoch správne pochopiť negácie ako „nie“ a „ne“.
Toto obmedzenie je obzvlášť problematické v medicínskom prostredí. Napríklad, ak rádiológ skúma RTG hrudníka, ktorý ukazuje opuch tkaniva bez zväčšeného srdca, použitie AI systému na vyhľadanie podobných prípadov môže viesť k nesprávnym diagnózam, ak model nedokáže rozlíšiť prítomnosť a neprítomnosť konkrétnych stavov.
„Tieto negácie môžu mať veľmi významný vplyv a ak budeme tieto modely používať bezhlavo, môžeme naraziť na katastrofálne následky,“ varuje hlavný autor Alhamoud. Pri testovaní schopnosti rozpoznať negáciu v popisoch obrázkov boli výsledky modelov porovnateľné s náhodným tipovaním.
Aby tento problém riešili, výskumníci vyvinuli NegBench – komplexný benchmark so 79 000 príkladmi v rámci 18 typov úloh, ktoré pokrývajú obrazové, video a medicínske datasety. Benchmark hodnotí dve kľúčové schopnosti: vyhľadávanie obrázkov na základe dopytov s negáciou a odpovedanie na otázky s viacerými možnosťami, kde sú v popisoch použité negácie.
Tím tiež vytvoril datasety so špecifickými príkladmi negácie na pretrénovanie týchto modelov, čím dosiahol 10 % zlepšenie v recall pri dopytoch s negáciou a 28 % nárast presnosti pri otázkach s viacerými možnosťami a negovanými popismi. Upozorňujú však, že na odstránenie príčin tohto problému je potrebné ďalšie úsilie.
„Ak je niečo také základné ako negácia pokazené, nemali by sme veľké vizuálno-jazykové modely používať v mnohých oblastiach tak, ako ich používame dnes – bez dôkladného hodnotenia,“ zdôrazňuje Ghassemi.
Výskum bude prezentovaný na nadchádzajúcej konferencii Computer Vision and Pattern Recognition, kde poukáže na naliehavú potrebu robustnejších AI systémov pre kritické aplikácie, ako je zdravotníctvo.