Modely AI pro analýzu obrazu selhávají v klíčovém testu negace v medicínském zobrazování

Výzkumníci z MIT zjistili, že modely propojující obraz a jazyk, hojně využívané při analýze medicínských snímků, nerozumí záporům jako 'ne' a 'není'. Tato zásadní slabina může vést k vážným diagnostickým chybám, pokud jsou tyto AI systémy požádány o vyhledání snímků podle konkrétních kritérií. Studie, publikovaná 14. května 2025, představuje NegBench – nový benchmark pro hodnocení a zlepšení porozumění negaci v AI systémech pro zpracování obrazu.

Nová studie výzkumníků z MIT odhalila zásadní nedostatek modelů propojujících obraz a jazyk (VLM), který může mít vážné důsledky pro lékařskou diagnostiku i další kritické aplikace.

Výzkumný tým vedený Kumail Alhamoudem a hlavní autorkou Marzyeh Ghassemi z katedry elektrotechniky a informatiky MIT zjistil, že tyto AI systémy – stále častěji využívané k analýze medicínských snímků – nedokážou v dotazech správně rozpoznat zápor jako 'ne' a 'není'.

Tato slabina je obzvlášť problematická v lékařském prostředí. Například když radiolog zkoumá rentgen hrudníku, kde je patrný otok tkáně, ale srdce není zvětšené, použití AI systému k nalezení podobných případů může vést k chybným diagnózám, pokud model nerozliší přítomnost a nepřítomnost konkrétních stavů.

"Zápor může mít zásadní dopad a pokud tyto modely používáme bez rozmyslu, můžeme narazit na katastrofální následky," varuje hlavní autor Alhamoud. Při testování schopnosti rozpoznat zápor v popiscích snímků si modely nevedly lépe než náhodný tip.

Aby tento problém řešili, vyvinuli vědci NegBench – komplexní benchmark s 79 000 příklady v 18 variantách úloh napříč obrazovými, video i medicínskými datovými sadami. Benchmark hodnotí dvě klíčové schopnosti: vyhledávání snímků na základě záporných dotazů a odpovídání na otázky s výběrem z možností, kde jsou v popiscích použity zápor.

Tým také vytvořil datové sady se speciálními příklady negace pro přeškolení těchto modelů, čímž dosáhl 10% zlepšení v úspěšnosti vyhledávání na záporné dotazy a 28% nárůstu přesnosti u otázek s výběrem z možností se zápornými popisky. Upozorňují však, že je třeba další práce k odstranění příčin tohoto problému.

"Pokud je něco tak zásadního jako negace rozbité, neměli bychom velké modely propojující obraz a jazyk používat v tolika oblastech, jak je používáme dnes – bez důkladného ověření," zdůrazňuje Ghassemi.

Výzkum bude představen na nadcházející konferenci Computer Vision and Pattern Recognition a upozorňuje na naléhavou potřebu robustnějších AI systémů v kritických oblastech, jako je zdravotnictví.

Source:

Modely AI pro analýzu obrazu selhávají v klíčovém testu negace v medicínském zobrazování

Latest News

ByteDanceův Doubao AI nyní nabízí asistenci v reálném čase přes video

OnePlus opouští přepínač režimů a nahrazuje jej AI tlačítkem Plus Key

Němečtí technologičtí giganti spojili síly pro evropskou AI gigatovárnu s podporou EU

Američtí prokurátoři vyšetřovali Builder.ai před krachem AI startupu za 1,5 miliardy dolarů

Norský fond v hodnotě 1,8 bilionu dolarů zavádí AI jako povinnou pro všechny zaměstnance

OpenTools.ai představuje AI News Hub pro technologické profesionály

Google rozšiřuje ovládání počítače pomocí AI pro vývojáře skrze Gemini

Google vylepšuje modely Gemini o transparentní shrnutí myšlenkových procesů

Modely AI pro analýzu obrazu selhávají v klíčovém testu negace v medicínském zobrazování

Related Articles

Modely Claude 4 od Anthropic stanovují nový standard v AI programování

Analytici potvrzují doporučení „mírně nakupovat“ pro CCC Intelligent Solutions

NASA představuje odvážnou strategii pro využití AI v příští dekádě vesmírného výzkumu

Bývalý vědec OpenAI plánoval bunkr pro svět po vzniku AGI

Latest News

ByteDanceův Doubao AI nyní nabízí asistenci v reálném čase přes video

OnePlus opouští přepínač režimů a nahrazuje jej AI tlačítkem Plus Key

Němečtí technologičtí giganti spojili síly pro evropskou AI gigatovárnu s podporou EU

Američtí prokurátoři vyšetřovali Builder.ai před krachem AI startupu za 1,5 miliardy dolarů

Norský fond v hodnotě 1,8 bilionu dolarů zavádí AI jako povinnou pro všechny zaměstnance

OpenTools.ai představuje AI News Hub pro technologické profesionály

Google rozšiřuje ovládání počítače pomocí AI pro vývojáře skrze Gemini

Google vylepšuje modely Gemini o transparentní shrnutí myšlenkových procesů