AI vizualni modeli padaju na ključnom testu negacije u medicinskoj dijagnostici

Istraživači s MIT-a otkrili su da vizualno-jezični modeli, široko korišteni u analizi medicinskih slika, ne razumiju riječi negacije poput 'ne' i 'nije'. Ovo ključno ograničenje može dovesti do ozbiljnih dijagnostičkih pogrešaka kada se od AI sustava traži pronalaženje medicinskih slika prema specifičnim kriterijima. Studija, objavljena 14. svibnja 2025., predstavlja NegBench, novi benchmark za procjenu i poboljšanje razumijevanja negacije u AI vizualnim sustavima.

Novo istraživanje znanstvenika s MIT-a otkrilo je temeljni nedostatak vizualno-jezičnih modela (VLM-ova) koji bi mogao imati ozbiljne posljedice za medicinsku dijagnostiku i druge kritične primjene.

Istraživački tim, predvođen Kumailom Alhamoudom i glavnom autoricom Marzyeh Ghassemi s Odjela za elektrotehniku i računalne znanosti MIT-a, ustanovio je da ti AI sustavi—koji se sve češće koriste za analizu medicinskih slika—ne uspijevaju razumjeti riječi negacije poput 'ne' i 'nije' u upitima.

Ovo ograničenje postaje posebno problematično u medicinskim kontekstima. Na primjer, kada radiolog analizira rendgensku snimku prsnog koša koja pokazuje oticanje tkiva bez povećanog srca, korištenje AI sustava za pronalaženje sličnih slučajeva može dovesti do pogrešnih dijagnoza ako model ne može razlikovati prisutnost i odsutnost određenih stanja.

"Te riječi negacije mogu imati vrlo značajan utjecaj, i ako te modele koristimo naslijepo, mogli bismo naići na katastrofalne posljedice," upozorava glavni autor Alhamoud. Kada su modeli testirani na sposobnost prepoznavanja negacije u opisima slika, pokazali su rezultate koji nisu bolji od nasumičnog pogađanja.

Kako bi riješili ovaj problem, istraživači su razvili NegBench, sveobuhvatan benchmark sa 79.000 primjera kroz 18 varijacija zadataka koji obuhvaćaju slike, video i medicinske skupove podataka. Benchmark procjenjuje dvije ključne sposobnosti: pronalaženje slika na temelju negiranih upita i odgovaranje na pitanja višestrukog izbora s negiranim opisima.

Tim je također stvorio skupove podataka s primjerima specifičnim za negaciju kako bi ponovno trenirao ove modele, čime su postigli 10% poboljšanja u pretraživanju negiranih upita i 28% povećanja točnosti na pitanjima višestrukog izbora s negiranim opisima. Ipak, upozoravaju da je potrebno još rada kako bi se otklonili temeljni uzroci ovog problema.

"Ako je nešto tako temeljno kao negacija neispravno, ne bismo smjeli koristiti velike vizualno-jezične modele na način na koji ih sada koristimo—bez temeljite evaluacije," naglašava Ghassemi.

Istraživanje će biti predstavljeno na nadolazećoj Konferenciji o računalnom vidu i prepoznavanju uzoraka, ističući hitnu potrebu za robusnijim AI sustavima u kritičnim područjima poput zdravstva.

Source:

AI vizualni modeli padaju na ključnom testu negacije u medicinskoj dijagnostici

Latest News

Doubao AI tvrtke ByteDance sada nudi pomoć u stvarnom vremenu putem videopoziva

OnePlus zamjenjuje Alert Slider novom AI tipkom Plus Key

Njemački tehnološki divovi udružuju snage za EU-potpomognutu AI gigatvornicu

Američki tužitelji istraživali Builder.ai prije kolapsa AI startupa vrijednog 1,5 milijardi dolara

Norveški fond od 1,8 bilijuna dolara uvodi obaveznu upotrebu umjetne inteligencije za zaposlenike

OpenTools.ai Predstavlja AI News Hub za Tehničke Profesionalce

Google proširuje AI upravljanje računalom na developere putem Geminija

Google unapređuje Gemini modele transparentnim sažecima razmišljanja

AI vizualni modeli padaju na ključnom testu negacije u medicinskoj dijagnostici

Related Articles

Anthropicovi Claude 4 modeli postavljaju novi AI standard u programiranju

Analitičari zadržavaju preporuku 'Umjereno kupiti' za CCC Intelligent Solutions

NASA Predstavlja Smjelu Strategiju Umjetne Inteligencije za Sljedeće Desetljeće Istraživanja Svemira

Bivši znanstvenik OpenAI-ja planirao bunker za svijet nakon AGI-ja

Latest News

Doubao AI tvrtke ByteDance sada nudi pomoć u stvarnom vremenu putem videopoziva

OnePlus zamjenjuje Alert Slider novom AI tipkom Plus Key

Njemački tehnološki divovi udružuju snage za EU-potpomognutu AI gigatvornicu

Američki tužitelji istraživali Builder.ai prije kolapsa AI startupa vrijednog 1,5 milijardi dolara

Norveški fond od 1,8 bilijuna dolara uvodi obaveznu upotrebu umjetne inteligencije za zaposlenike

OpenTools.ai Predstavlja AI News Hub za Tehničke Profesionalce

Google proširuje AI upravljanje računalom na developere putem Geminija

Google unapređuje Gemini modele transparentnim sažecima razmišljanja