I modelli di visione AI non comprendono la negazione, rischiando errori medici

I ricercatori del MIT hanno scoperto che i modelli visione-linguaggio (VLM) non sono in grado di comprendere parole di negazione come 'no' e 'non', comportandosi nei test come se indovinassero a caso. Questo difetto fondamentale potrebbe portare a gravi errori diagnostici in ambito sanitario, dove distinguere tra condizioni presenti e assenti è cruciale. Il team di ricerca, guidato da Kumail Alhamoud e Marzyeh Ghassemi, ha sviluppato un benchmark chiamato NegBench per valutare e migliorare questi modelli.

Uno studio rivoluzionario del MIT ha rivelato una falla critica nei modelli visione-linguaggio (VLM), che potrebbe avere serie implicazioni per il loro utilizzo in ambito sanitario e in altri contesti ad alto rischio.

Nello studio, i ricercatori del MIT hanno scoperto che i VLM sono estremamente propensi a commettere errori in situazioni reali perché non comprendono la negazione — parole come "no" e "non" che specificano ciò che è falso o assente. "Queste parole di negazione possono avere un impatto molto significativo, e se utilizziamo questi modelli ciecamente, potremmo incorrere in conseguenze catastrofiche", afferma Kumail Alhamoud, dottorando al MIT e autore principale dello studio.

I ricercatori illustrano il problema con un esempio medico: immaginate un radiologo che esamina una radiografia toracica e nota che un paziente presenta un gonfiore nei tessuti ma non ha un cuore ingrossato. In uno scenario simile, i modelli visione-linguaggio probabilmente non riuscirebbero a distinguere tra queste condizioni. Se il modello identificasse erroneamente i referti come se entrambe le condizioni fossero presenti, le implicazioni diagnostiche potrebbero essere significative: un paziente con gonfiore dei tessuti e cuore ingrossato probabilmente ha una condizione cardiaca, ma senza cuore ingrossato potrebbero esserci diverse cause sottostanti.

Testando la capacità dei modelli visione-linguaggio di identificare la negazione nelle didascalie delle immagini, i ricercatori hanno scoperto che i modelli spesso si comportano come se indovinassero a caso. Sulla base di questi risultati, il team ha creato un dataset di immagini con didascalie corrispondenti che includono parole di negazione per descrivere oggetti mancanti. Hanno dimostrato che il riaddestramento di un modello visione-linguaggio con questo dataset porta a miglioramenti nelle prestazioni quando il modello deve recuperare immagini che non contengono determinati oggetti. Migliora anche l'accuratezza nelle risposte a domande a scelta multipla con didascalie negate. Tuttavia, i ricercatori avvertono che è necessario un ulteriore lavoro per affrontare le cause profonde di questo problema.

"Questo non riguarda solo parole come 'no' e 'non'. Indipendentemente da come si esprima la negazione o l'esclusione, i modelli semplicemente la ignorano", afferma Alhamoud. Questo comportamento è stato riscontrato in tutti i VLM testati. Il problema di fondo deriva dal modo in cui questi modelli vengono addestrati. "Le didascalie esprimono ciò che è presente nelle immagini — sono un'etichetta positiva. Ed è proprio questo il problema. Nessuno guarda un'immagine di un cane che salta una staccionata e la descrive dicendo 'un cane che salta una staccionata, senza elicotteri'", spiega Marzyeh Ghassemi, autrice senior. Poiché i dataset di immagini e didascalie non contengono esempi di negazione, i VLM non imparano mai a identificarla.

"Se qualcosa di così fondamentale come la negazione è difettoso, non dovremmo utilizzare i grandi modelli visione/linguaggio nei modi in cui li stiamo usando ora — senza una valutazione approfondita", afferma Ghassemi, professoressa associata nel Dipartimento di Ingegneria Elettrica e Informatica e membro dell'Istituto di Scienze dell'Ingegneria Medica. La ricerca, che sarà presentata alla Conference on Computer Vision and Pattern Recognition, è stata condotta da un team che include ricercatori del MIT, OpenAI e dell'Università di Oxford.

Questa scoperta ha importanti implicazioni per settori ad alto rischio come il monitoraggio della sicurezza e la sanità. Il lavoro dei ricercatori, che include lo sviluppo di NegBench, un benchmark completo per valutare i modelli visione-linguaggio su compiti specifici di negazione, rappresenta un passo importante verso sistemi di intelligenza artificiale più robusti e capaci di una comprensione linguistica più sfumata, con implicazioni fondamentali per la diagnostica medica e il recupero semantico dei contenuti.

I modelli di visione AI non comprendono la negazione, rischiando errori medici

Latest News

Doubao AI di ByteDance ora offre assistenza video in tempo reale

OnePlus abbandona l’Alert Slider per il nuovo tasto Plus alimentato dall’IA

I giganti tecnologici tedeschi si uniscono per una gigafabbrica di IA sostenuta dall’UE

I Procuratori USA Indagarono su Builder.ai Prima del Crollo della Startup AI da 1,5 Miliardi di Dollari

Il Fondo Norvegese da 1.800 Miliardi di Dollari Rende l’IA Obbligatoria per il Personale

OpenTools.ai lancia AI News Hub per i professionisti della tecnologia

Google Estende il Controllo AI del Computer agli Sviluppatori tramite Gemini

Google migliora i modelli Gemini con riepiloghi trasparenti del processo di pensiero

I modelli di visione AI non comprendono la negazione, rischiando errori medici

Related Articles

OnePlus abbandona l’Alert Slider per il nuovo tasto Plus alimentato dall’IA

I giganti tecnologici tedeschi si uniscono per una gigafabbrica di IA sostenuta dall’UE

I Procuratori USA Indagarono su Builder.ai Prima del Crollo della Startup AI da 1,5 Miliardi di Dollari

Latest News

Doubao AI di ByteDance ora offre assistenza video in tempo reale

OnePlus abbandona l’Alert Slider per il nuovo tasto Plus alimentato dall’IA

I giganti tecnologici tedeschi si uniscono per una gigafabbrica di IA sostenuta dall’UE

I Procuratori USA Indagarono su Builder.ai Prima del Crollo della Startup AI da 1,5 Miliardi di Dollari

Il Fondo Norvegese da 1.800 Miliardi di Dollari Rende l’IA Obbligatoria per il Personale

OpenTools.ai lancia AI News Hub per i professionisti della tecnologia

Google Estende il Controllo AI del Computer agli Sviluppatori tramite Gemini

Google migliora i modelli Gemini con riepiloghi trasparenti del processo di pensiero