menu
close

Modely AI na rozpoznávanie obrazu zlyhávajú pri negácii, čo ohrozuje presnosť v medicíne

Vedci z MIT zistili, že modely na prepojenie obrazu a jazyka (VLM) nerozumejú negáciám, ako sú slová „nie“ a „ne“, pričom v testoch dosahujú výsledky porovnateľné s náhodným tipovaním. Tento zásadný nedostatok môže viesť k vážnym diagnostickým chybám v zdravotníctve, kde je rozlíšenie medzi prítomnosťou a absenciou príznakov kľúčové. Tím pod vedením Kumaila Alhamouda a Marzyeh Ghassemi vyvinul benchmark NegBench na hodnotenie a zlepšenie týchto modelov.
Modely AI na rozpoznávanie obrazu zlyhávajú pri negácii, čo ohrozuje presnosť v medicíne

Prelomová štúdia MIT odhalila zásadnú chybu v modeloch na prepojenie obrazu a jazyka (VLM), ktorá môže mať vážne dôsledky pre ich využitie v zdravotníctve a ďalších kritických oblastiach.

Výskumníci z MIT zistili, že VLM modely sú v reálnych situáciách mimoriadne náchylné na chyby, pretože nerozumejú negáciám – slovám ako „nie“ a „ne“, ktoré určujú, čo je nepravdivé alebo chýba. „Tieto negácie môžu mať veľmi významný dopad a ak budeme tieto modely používať bez rozmyslu, môžeme naraziť na katastrofálne následky,“ hovorí Kumail Alhamoud, doktorand na MIT a hlavný autor štúdie.

Vedci ilustrujú problém na medicínskom príklade: Predstavte si rádiológa, ktorý skúma snímku hrudníka a zistí, že pacient má opuch tkaniva, ale nemá zväčšené srdce. V takejto situácii by VLM modely pravdepodobne nedokázali rozlíšiť tieto stavy. Ak model omylom identifikuje správy s oboma stavmi, dôsledky pre diagnózu môžu byť závažné: pacient s opuchom tkaniva a zväčšeným srdcom pravdepodobne trpí srdcovým ochorením, no bez zväčšeného srdca môže byť príčina úplne iná.

Pri testovaní schopnosti VLM modelov rozpoznať negáciu v popisoch obrázkov vedci zistili, že modely často dosahovali výsledky porovnateľné s náhodným tipovaním. Na základe týchto zistení tím vytvoril dataset obrázkov s popismi obsahujúcimi negácie, ktoré opisujú chýbajúce objekty. Ukázalo sa, že preškolenie modelu na tomto datasete vedie k zlepšeniu výkonu pri vyhľadávaní obrázkov, na ktorých určité objekty chýbajú. Zvyšuje sa aj presnosť pri zodpovedaní otázok s negovanými popismi. Vedci však upozorňujú, že na odstránenie príčiny problému je potrebné ďalšie úsilie.

„Toto sa netýka len slov ako ‚nie‘ a ‚ne‘. Bez ohľadu na to, ako negáciu alebo vylúčenie vyjadríte, modely to jednoducho ignorujú,“ hovorí Alhamoud. Tento jav bol konzistentný pri všetkých testovaných VLM modeloch. Problém spočíva v spôsobe, akým sú tieto modely trénované. „Popisy vyjadrujú, čo je na obrázkoch – ide o pozitívne označenie. A to je vlastne celý problém. Nikto sa nepozerá na obrázok psa preskakujúceho plot a nepopíše ho ako ‚pes preskakujúci plot, bez helikoptér‘,“ vysvetľuje hlavná autorka Marzyeh Ghassemi. Keďže datasety s popismi obrázkov neobsahujú príklady negácie, modely VLM sa ich nikdy nenaučia rozpoznávať.

„Ak je niečo také základné ako negácia pokazené, nemali by sme veľké modely na prepojenie obrazu a jazyka používať tak, ako ich dnes používame – bez dôkladného hodnotenia,“ hovorí Ghassemi, docentka na Katedre elektrotechniky a informatiky a členka Inštitútu medicínskeho inžinierstva a vied. Výskum, ktorý bude prezentovaný na konferencii Computer Vision and Pattern Recognition, realizoval tím zložený z vedcov z MIT, OpenAI a Oxfordskej univerzity.

Toto zistenie má významné dôsledky pre oblasti s vysokými nárokmi na bezpečnosť, ako je monitoring alebo zdravotníctvo. Práca výskumníkov, vrátane vývoja benchmarku NegBench – komplexného nástroja na hodnotenie VLM modelov v úlohách s negáciou – predstavuje dôležitý krok k robustnejším AI systémom schopným nuansovaného porozumenia jazyku, čo je kľúčové najmä pre medicínsku diagnostiku a sémantické vyhľadávanie obsahu.

Source: Mit

Latest News