Nová studie výzkumníků z MIT odhalila zásadní nedostatek modelů propojujících obraz a jazyk (VLM), který může mít vážné důsledky pro lékařskou diagnostiku i další kritické aplikace.
Výzkumný tým vedený Kumail Alhamoudem a hlavní autorkou Marzyeh Ghassemi z katedry elektrotechniky a informatiky MIT zjistil, že tyto AI systémy – stále častěji využívané k analýze medicínských snímků – nedokážou v dotazech správně rozpoznat zápor jako 'ne' a 'není'.
Tato slabina je obzvlášť problematická v lékařském prostředí. Například když radiolog zkoumá rentgen hrudníku, kde je patrný otok tkáně, ale srdce není zvětšené, použití AI systému k nalezení podobných případů může vést k chybným diagnózám, pokud model nerozliší přítomnost a nepřítomnost konkrétních stavů.
"Zápor může mít zásadní dopad a pokud tyto modely používáme bez rozmyslu, můžeme narazit na katastrofální následky," varuje hlavní autor Alhamoud. Při testování schopnosti rozpoznat zápor v popiscích snímků si modely nevedly lépe než náhodný tip.
Aby tento problém řešili, vyvinuli vědci NegBench – komplexní benchmark s 79 000 příklady v 18 variantách úloh napříč obrazovými, video i medicínskými datovými sadami. Benchmark hodnotí dvě klíčové schopnosti: vyhledávání snímků na základě záporných dotazů a odpovídání na otázky s výběrem z možností, kde jsou v popiscích použity zápor.
Tým také vytvořil datové sady se speciálními příklady negace pro přeškolení těchto modelů, čímž dosáhl 10% zlepšení v úspěšnosti vyhledávání na záporné dotazy a 28% nárůstu přesnosti u otázek s výběrem z možností se zápornými popisky. Upozorňují však, že je třeba další práce k odstranění příčin tohoto problému.
"Pokud je něco tak zásadního jako negace rozbité, neměli bychom velké modely propojující obraz a jazyk používat v tolika oblastech, jak je používáme dnes – bez důkladného ověření," zdůrazňuje Ghassemi.
Výzkum bude představen na nadcházející konferenci Computer Vision and Pattern Recognition a upozorňuje na naléhavou potřebu robustnějších AI systémů v kritických oblastech, jako je zdravotnictví.