menu
close

AI vizijski modeli ne razumiju negaciju, što može dovesti do medicinskih pogrešaka

Istraživači s MIT-a otkrili su da vizijsko-jezični modeli (VLM-ovi) ne razumiju riječi negacije poput 'ne' i 'nije', te na testovima postižu rezultate koji nisu bolji od nasumičnog pogađanja. Ovaj temeljni nedostatak mogao bi dovesti do ozbiljnih dijagnostičkih pogrešaka u zdravstvu, gdje je ključno razlikovati prisutne i odsutne uvjete. Istraživački tim, predvođen Kumailom Alhamoudom i Marzyeh Ghassemi, razvio je mjerilo NegBench za procjenu i poboljšanje ovih modela.
AI vizijski modeli ne razumiju negaciju, što može dovesti do medicinskih pogrešaka

Revolucionarno istraživanje MIT-a otkrilo je kritičan nedostatak vizijsko-jezičnih modela (VLM-ova) koji bi mogao imati ozbiljne posljedice za njihovu primjenu u zdravstvu i drugim okruženjima s visokim ulozima.

U studiji su istraživači s MIT-a utvrdili da VLM-ovi vrlo često griješe u stvarnim situacijama jer ne razumiju negaciju — riječi poput "ne" i "nije" koje određuju što je netočno ili odsutno. "Te riječi negacije mogu imati vrlo značajan utjecaj, i ako ove modele koristimo bez razmišljanja, mogli bismo naići na katastrofalne posljedice", kaže Kumail Alhamoud, doktorand na MIT-u i glavni autor studije.

Istraživači problem ilustriraju medicinskim primjerom: Zamislite radiologa koji pregledava rendgensku snimku prsnog koša i primjećuje da pacijent ima oticanje tkiva, ali nema povećano srce. U takvom scenariju, vizijsko-jezični modeli vjerojatno ne bi uspjeli razlikovati te uvjete. Ako model pogrešno identificira izvještaje s oba stanja, dijagnostičke posljedice mogle bi biti značajne: pacijent s oticanjem tkiva i povećanim srcem vjerojatno ima srčanu bolest, ali bez povećanog srca, mogući su brojni drugi uzroci.

Prilikom testiranja sposobnosti vizijsko-jezičnih modela da prepoznaju negaciju u opisima slika, istraživači su otkrili da modeli često postižu rezultate kao i nasumično pogađanje. Na temelju tih saznanja, tim je izradio skup podataka sa slikama i pripadajućim opisima koji uključuju riječi negacije za opisivanje odsutnih objekata. Pokazali su da ponovno treniranje vizijsko-jezičnog modela s ovim skupom podataka poboljšava performanse kada se od modela traži da pronađe slike koje ne sadrže određene objekte. Također se povećava točnost kod višestrukih pitanja s negiranim opisima. Međutim, istraživači upozoravaju da je potrebno još rada kako bi se otklonili temeljni uzroci ovog problema.

"Ovo se ne događa samo za riječi poput 'ne' i 'nije'. Bez obzira na to kako izrazite negaciju ili isključenje, modeli će to jednostavno ignorirati", kaže Alhamoud. Ovo je bilo dosljedno kod svakog VLM-a koji su testirali. Temeljni problem proizlazi iz načina na koji se ovi modeli treniraju. "Opisi izražavaju što je na slici — oni su pozitivna oznaka. I tu zapravo leži cijeli problem. Nitko ne gleda sliku psa koji skače preko ograde i ne opisuje je kao 'pas skače preko ograde, bez helikoptera'", objašnjava Marzyeh Ghassemi, viša autorica rada. Budući da skupovi podataka sa slikama i opisima ne sadrže primjere negacije, VLM-ovi ih nikada ne nauče prepoznavati.

"Ako je nešto tako temeljno kao negacija neispravno, ne bismo smjeli koristiti velike vizijsko-jezične modele na način na koji ih sada koristimo — bez temeljite evaluacije", kaže Ghassemi, izvanredna profesorica na Odsjeku za elektrotehniku i računalnu znanost te članica Instituta za medicinsko inženjerstvo i znanost. Istraživanje, koje će biti predstavljeno na Konferenciji o računalnom vidu i prepoznavanju uzoraka, proveli su istraživači s MIT-a, OpenAI-a i Sveučilišta Oxford.

Ovo otkriće ima značajne posljedice za područja s visokim rizikom, poput nadzora sigurnosti i zdravstva. Rad istraživača, koji uključuje razvoj NegBencha, sveobuhvatnog mjerila za procjenu vizijsko-jezičnih modela na zadacima vezanim uz negaciju, predstavlja važan korak prema robusnijim AI sustavima sposobnim za nijansirano razumijevanje jezika, s ključnim implikacijama za medicinsku dijagnostiku i semantičko pretraživanje sadržaja.

Source: Mit

Latest News