Vizuální AI modely nerozumí negaci, hrozí medicínské chyby

Výzkumníci z MIT zjistili, že vizuálně-jazykové modely (VLM) nerozumí negaci, tedy slovům jako 'ne' a 'není', a v testech dosahují výsledků na úrovni náhodného tipování. Tento zásadní nedostatek může vést k vážným diagnostickým chybám ve zdravotnictví, kde je rozlišení mezi přítomnými a chybějícími stavy klíčové. Tým vedený Kumail Alhamoudem a Marzyeh Ghassemi vyvinul benchmark NegBench pro hodnocení a zlepšení těchto modelů.

Průlomová studie MIT odhalila zásadní slabinu vizuálně-jazykových modelů (VLM), která může mít vážné důsledky pro jejich využití ve zdravotnictví a dalších kritických oblastech.

Ve studii výzkumníci z MIT zjistili, že VLM jsou v reálných situacích velmi náchylné k chybám, protože nerozumí negaci – tedy slovům jako "ne" a "není", která určují, co je nepravdivé nebo chybí. "Negace může mít velmi zásadní dopad a pokud tyto modely používáme bez rozmyslu, můžeme narazit na katastrofální následky," říká Kumail Alhamoud, doktorand na MIT a hlavní autor studie.

Výzkumníci ilustrují problém na lékařském příkladu: Představte si radiologa, který zkoumá rentgen hrudníku a zjistí, že pacient má otok tkáně, ale nemá zvětšené srdce. V takové situaci by vizuálně-jazykové modely pravděpodobně nedokázaly tyto stavy rozlišit. Pokud by model chybně identifikoval zprávy s oběma stavy, mohlo by to mít zásadní diagnostické důsledky: pacient s otokem tkáně a zvětšeným srdcem pravděpodobně trpí srdečním onemocněním, ale bez zvětšeného srdce může být příčina zcela jiná.

Při testování schopnosti VLM rozpoznat negaci v popiscích obrázků zjistili vědci, že modely často dosahují výsledků na úrovni náhodného tipování. Na základě těchto zjištění tým vytvořil dataset obrázků s popisky obsahujícími negaci, které popisují chybějící objekty. Ukázali, že přeškolení modelu na tomto datasetu vede ke zlepšení výkonu při vyhledávání obrázků, na nichž určité objekty chybí. Zvyšuje se také přesnost při odpovídání na otázky s negovanými popisky. Výzkumníci však upozorňují, že je třeba řešit příčinu tohoto problému hlouběji.

"Nejde jen o slova jako 'ne' a 'není'. Bez ohledu na to, jak negaci nebo vyloučení vyjádříte, modely ji prostě ignorují," říká Alhamoud. Tento jev byl konzistentní u všech testovaných VLM. Zásadní problém spočívá v tom, jak jsou tyto modely trénovány. "Popisky vyjadřují, co je na obrázcích – jsou to pozitivní označení. A to je právě celý problém. Nikdo se nedívá na obrázek psa skákajícího přes plot a nenapíše popisek 'pes skákající přes plot, bez vrtulníků'," vysvětluje hlavní autorka Marzyeh Ghassemi. Protože datasety obrázků a popisků neobsahují příklady negace, VLM se ji nikdy nenaučí rozpoznávat.

"Pokud je něco tak zásadního jako negace rozbité, neměli bychom velké vizuálně-jazykové modely používat tak, jak je dnes používáme – bez důkladného ověření," říká Ghassemi, docentka na katedře elektrotechniky a informatiky a členka Institutu lékařského inženýrství a věd. Výzkum, který bude prezentován na konferenci Computer Vision and Pattern Recognition, provedl tým složený z výzkumníků z MIT, OpenAI a Oxfordské univerzity.

Tento objev má zásadní dopady na oblasti s vysokými nároky na bezpečnost, jako je zdravotnictví či monitoring. Práce výzkumníků, která zahrnuje i vývoj benchmarku NegBench pro hodnocení VLM na úlohách zaměřených na negaci, představuje důležitý krok k robustnějším AI systémům schopným nuance v jazykovém porozumění – což je klíčové například pro lékařskou diagnostiku nebo vyhledávání v obsahu.

Source: Mit

Vizuální AI modely nerozumí negaci, hrozí medicínské chyby

Latest News

ByteDanceův Doubao AI nyní nabízí asistenci v reálném čase přes video

OnePlus opouští přepínač režimů a nahrazuje jej AI tlačítkem Plus Key

Němečtí technologičtí giganti spojili síly pro evropskou AI gigatovárnu s podporou EU

Američtí prokurátoři vyšetřovali Builder.ai před krachem AI startupu za 1,5 miliardy dolarů

Norský fond v hodnotě 1,8 bilionu dolarů zavádí AI jako povinnou pro všechny zaměstnance

OpenTools.ai představuje AI News Hub pro technologické profesionály

Google rozšiřuje ovládání počítače pomocí AI pro vývojáře skrze Gemini

Google vylepšuje modely Gemini o transparentní shrnutí myšlenkových procesů

Vizuální AI modely nerozumí negaci, hrozí medicínské chyby

Related Articles

OnePlus opouští přepínač režimů a nahrazuje jej AI tlačítkem Plus Key

Němečtí technologičtí giganti spojili síly pro evropskou AI gigatovárnu s podporou EU

Američtí prokurátoři vyšetřovali Builder.ai před krachem AI startupu za 1,5 miliardy dolarů

Latest News

ByteDanceův Doubao AI nyní nabízí asistenci v reálném čase přes video

OnePlus opouští přepínač režimů a nahrazuje jej AI tlačítkem Plus Key

Němečtí technologičtí giganti spojili síly pro evropskou AI gigatovárnu s podporou EU

Američtí prokurátoři vyšetřovali Builder.ai před krachem AI startupu za 1,5 miliardy dolarů

Norský fond v hodnotě 1,8 bilionu dolarů zavádí AI jako povinnou pro všechny zaměstnance

OpenTools.ai představuje AI News Hub pro technologické profesionály

Google rozšiřuje ovládání počítače pomocí AI pro vývojáře skrze Gemini

Google vylepšuje modely Gemini o transparentní shrnutí myšlenkových procesů