Modely AI na rozpoznávanie obrazu zlyhávajú pri negácii, čo ohrozuje presnosť v medicíne

Vedci z MIT zistili, že modely na prepojenie obrazu a jazyka (VLM) nerozumejú negáciám, ako sú slová „nie“ a „ne“, pričom v testoch dosahujú výsledky porovnateľné s náhodným tipovaním. Tento zásadný nedostatok môže viesť k vážnym diagnostickým chybám v zdravotníctve, kde je rozlíšenie medzi prítomnosťou a absenciou príznakov kľúčové. Tím pod vedením Kumaila Alhamouda a Marzyeh Ghassemi vyvinul benchmark NegBench na hodnotenie a zlepšenie týchto modelov.

Prelomová štúdia MIT odhalila zásadnú chybu v modeloch na prepojenie obrazu a jazyka (VLM), ktorá môže mať vážne dôsledky pre ich využitie v zdravotníctve a ďalších kritických oblastiach.

Výskumníci z MIT zistili, že VLM modely sú v reálnych situáciách mimoriadne náchylné na chyby, pretože nerozumejú negáciám – slovám ako „nie“ a „ne“, ktoré určujú, čo je nepravdivé alebo chýba. „Tieto negácie môžu mať veľmi významný dopad a ak budeme tieto modely používať bez rozmyslu, môžeme naraziť na katastrofálne následky,“ hovorí Kumail Alhamoud, doktorand na MIT a hlavný autor štúdie.

Vedci ilustrujú problém na medicínskom príklade: Predstavte si rádiológa, ktorý skúma snímku hrudníka a zistí, že pacient má opuch tkaniva, ale nemá zväčšené srdce. V takejto situácii by VLM modely pravdepodobne nedokázali rozlíšiť tieto stavy. Ak model omylom identifikuje správy s oboma stavmi, dôsledky pre diagnózu môžu byť závažné: pacient s opuchom tkaniva a zväčšeným srdcom pravdepodobne trpí srdcovým ochorením, no bez zväčšeného srdca môže byť príčina úplne iná.

Pri testovaní schopnosti VLM modelov rozpoznať negáciu v popisoch obrázkov vedci zistili, že modely často dosahovali výsledky porovnateľné s náhodným tipovaním. Na základe týchto zistení tím vytvoril dataset obrázkov s popismi obsahujúcimi negácie, ktoré opisujú chýbajúce objekty. Ukázalo sa, že preškolenie modelu na tomto datasete vedie k zlepšeniu výkonu pri vyhľadávaní obrázkov, na ktorých určité objekty chýbajú. Zvyšuje sa aj presnosť pri zodpovedaní otázok s negovanými popismi. Vedci však upozorňujú, že na odstránenie príčiny problému je potrebné ďalšie úsilie.

„Toto sa netýka len slov ako ‚nie‘ a ‚ne‘. Bez ohľadu na to, ako negáciu alebo vylúčenie vyjadríte, modely to jednoducho ignorujú,“ hovorí Alhamoud. Tento jav bol konzistentný pri všetkých testovaných VLM modeloch. Problém spočíva v spôsobe, akým sú tieto modely trénované. „Popisy vyjadrujú, čo je na obrázkoch – ide o pozitívne označenie. A to je vlastne celý problém. Nikto sa nepozerá na obrázok psa preskakujúceho plot a nepopíše ho ako ‚pes preskakujúci plot, bez helikoptér‘,“ vysvetľuje hlavná autorka Marzyeh Ghassemi. Keďže datasety s popismi obrázkov neobsahujú príklady negácie, modely VLM sa ich nikdy nenaučia rozpoznávať.

„Ak je niečo také základné ako negácia pokazené, nemali by sme veľké modely na prepojenie obrazu a jazyka používať tak, ako ich dnes používame – bez dôkladného hodnotenia,“ hovorí Ghassemi, docentka na Katedre elektrotechniky a informatiky a členka Inštitútu medicínskeho inžinierstva a vied. Výskum, ktorý bude prezentovaný na konferencii Computer Vision and Pattern Recognition, realizoval tím zložený z vedcov z MIT, OpenAI a Oxfordskej univerzity.

Toto zistenie má významné dôsledky pre oblasti s vysokými nárokmi na bezpečnosť, ako je monitoring alebo zdravotníctvo. Práca výskumníkov, vrátane vývoja benchmarku NegBench – komplexného nástroja na hodnotenie VLM modelov v úlohách s negáciou – predstavuje dôležitý krok k robustnejším AI systémom schopným nuansovaného porozumenia jazyku, čo je kľúčové najmä pre medicínsku diagnostiku a sémantické vyhľadávanie obsahu.

Source: Mit

Modely AI na rozpoznávanie obrazu zlyhávajú pri negácii, čo ohrozuje presnosť v medicíne

Latest News

ByteDance rozširuje Doubao AI o asistenciu v reálnom čase cez video

OnePlus nahrádza ikonický prepínač režimov novým AI tlačidlom Plus Key

Nemeckí technologickí giganti sa spájajú pre AI gigatováreň podporovanú EÚ

Americkí prokurátori vyšetrovali Builder.ai pred krachom AI startupu v hodnote 1,5 miliardy dolárov

Nórsky fond v hodnote 1,8 bilióna dolárov zavádza povinné využívanie AI pre zamestnancov

OpenTools.ai predstavuje AI News Hub pre technologických profesionálov

Google rozširuje ovládanie počítača pomocou AI pre vývojárov cez Gemini

Google vylepšuje modely Gemini transparentnými súhrnmi myšlienok

Modely AI na rozpoznávanie obrazu zlyhávajú pri negácii, čo ohrozuje presnosť v medicíne

Related Articles

OnePlus nahrádza ikonický prepínač režimov novým AI tlačidlom Plus Key

Nemeckí technologickí giganti sa spájajú pre AI gigatováreň podporovanú EÚ

Americkí prokurátori vyšetrovali Builder.ai pred krachom AI startupu v hodnote 1,5 miliardy dolárov

Latest News

ByteDance rozširuje Doubao AI o asistenciu v reálnom čase cez video

OnePlus nahrádza ikonický prepínač režimov novým AI tlačidlom Plus Key

Nemeckí technologickí giganti sa spájajú pre AI gigatováreň podporovanú EÚ

Americkí prokurátori vyšetrovali Builder.ai pred krachom AI startupu v hodnote 1,5 miliardy dolárov

Nórsky fond v hodnote 1,8 bilióna dolárov zavádza povinné využívanie AI pre zamestnancov

OpenTools.ai predstavuje AI News Hub pre technologických profesionálov

Google rozširuje ovládanie počítača pomocou AI pre vývojárov cez Gemini

Google vylepšuje modely Gemini transparentnými súhrnmi myšlienok