menu
close

Modely vizuálneho rozpoznávania s umelou inteligenciou zlyhávajú v kľúčovom teste negácie v medicínskom zobrazovaní

Výskumníci z MIT zistili, že modely vizuálneho rozpoznávania a jazyka, ktoré sa široko používajú pri analýze medicínskych snímok, nedokážu pochopiť negácie ako „nie“ a „ne“. Toto zásadné obmedzenie môže viesť k vážnym diagnostickým chybám, ak sú tieto AI systémy požiadané o vyhľadávanie medicínskych snímok podľa konkrétnych kritérií. Štúdia publikovaná 14. mája 2025 predstavuje NegBench, nový benchmark na hodnotenie a zlepšovanie chápania negácie v AI vizuálnych systémoch.
Modely vizuálneho rozpoznávania s umelou inteligenciou zlyhávajú v kľúčovom teste negácie v medicínskom zobrazovaní

Nová štúdia výskumníkov z MIT odhalila zásadnú chybu v modeloch vizuálneho rozpoznávania a jazyka (VLM), ktorá môže mať vážne dôsledky pre medicínsku diagnostiku a ďalšie kritické aplikácie.

Výskumný tím pod vedením Kumaila Alhamouda a hlavnej autorky Marzyeh Ghassemi z Katedry elektrotechniky a informatiky MIT zistil, že tieto AI systémy – čoraz častejšie využívané na analýzu medicínskych snímok – nedokážu v dopytoch správne pochopiť negácie ako „nie“ a „ne“.

Toto obmedzenie je obzvlášť problematické v medicínskom prostredí. Napríklad, ak rádiológ skúma RTG hrudníka, ktorý ukazuje opuch tkaniva bez zväčšeného srdca, použitie AI systému na vyhľadanie podobných prípadov môže viesť k nesprávnym diagnózam, ak model nedokáže rozlíšiť prítomnosť a neprítomnosť konkrétnych stavov.

„Tieto negácie môžu mať veľmi významný vplyv a ak budeme tieto modely používať bezhlavo, môžeme naraziť na katastrofálne následky,“ varuje hlavný autor Alhamoud. Pri testovaní schopnosti rozpoznať negáciu v popisoch obrázkov boli výsledky modelov porovnateľné s náhodným tipovaním.

Aby tento problém riešili, výskumníci vyvinuli NegBench – komplexný benchmark so 79 000 príkladmi v rámci 18 typov úloh, ktoré pokrývajú obrazové, video a medicínske datasety. Benchmark hodnotí dve kľúčové schopnosti: vyhľadávanie obrázkov na základe dopytov s negáciou a odpovedanie na otázky s viacerými možnosťami, kde sú v popisoch použité negácie.

Tím tiež vytvoril datasety so špecifickými príkladmi negácie na pretrénovanie týchto modelov, čím dosiahol 10 % zlepšenie v recall pri dopytoch s negáciou a 28 % nárast presnosti pri otázkach s viacerými možnosťami a negovanými popismi. Upozorňujú však, že na odstránenie príčin tohto problému je potrebné ďalšie úsilie.

„Ak je niečo také základné ako negácia pokazené, nemali by sme veľké vizuálno-jazykové modely používať v mnohých oblastiach tak, ako ich používame dnes – bez dôkladného hodnotenia,“ zdôrazňuje Ghassemi.

Výskum bude prezentovaný na nadchádzajúcej konferencii Computer Vision and Pattern Recognition, kde poukáže na naliehavú potrebu robustnejších AI systémov pre kritické aplikácie, ako je zdravotníctvo.

Source:

Latest News