Uno studio rivoluzionario del MIT ha rivelato una falla critica nei modelli visione-linguaggio (VLM), che potrebbe avere serie implicazioni per il loro utilizzo in ambito sanitario e in altri contesti ad alto rischio.
Nello studio, i ricercatori del MIT hanno scoperto che i VLM sono estremamente propensi a commettere errori in situazioni reali perché non comprendono la negazione — parole come "no" e "non" che specificano ciò che è falso o assente. "Queste parole di negazione possono avere un impatto molto significativo, e se utilizziamo questi modelli ciecamente, potremmo incorrere in conseguenze catastrofiche", afferma Kumail Alhamoud, dottorando al MIT e autore principale dello studio.
I ricercatori illustrano il problema con un esempio medico: immaginate un radiologo che esamina una radiografia toracica e nota che un paziente presenta un gonfiore nei tessuti ma non ha un cuore ingrossato. In uno scenario simile, i modelli visione-linguaggio probabilmente non riuscirebbero a distinguere tra queste condizioni. Se il modello identificasse erroneamente i referti come se entrambe le condizioni fossero presenti, le implicazioni diagnostiche potrebbero essere significative: un paziente con gonfiore dei tessuti e cuore ingrossato probabilmente ha una condizione cardiaca, ma senza cuore ingrossato potrebbero esserci diverse cause sottostanti.
Testando la capacità dei modelli visione-linguaggio di identificare la negazione nelle didascalie delle immagini, i ricercatori hanno scoperto che i modelli spesso si comportano come se indovinassero a caso. Sulla base di questi risultati, il team ha creato un dataset di immagini con didascalie corrispondenti che includono parole di negazione per descrivere oggetti mancanti. Hanno dimostrato che il riaddestramento di un modello visione-linguaggio con questo dataset porta a miglioramenti nelle prestazioni quando il modello deve recuperare immagini che non contengono determinati oggetti. Migliora anche l'accuratezza nelle risposte a domande a scelta multipla con didascalie negate. Tuttavia, i ricercatori avvertono che è necessario un ulteriore lavoro per affrontare le cause profonde di questo problema.
"Questo non riguarda solo parole come 'no' e 'non'. Indipendentemente da come si esprima la negazione o l'esclusione, i modelli semplicemente la ignorano", afferma Alhamoud. Questo comportamento è stato riscontrato in tutti i VLM testati. Il problema di fondo deriva dal modo in cui questi modelli vengono addestrati. "Le didascalie esprimono ciò che è presente nelle immagini — sono un'etichetta positiva. Ed è proprio questo il problema. Nessuno guarda un'immagine di un cane che salta una staccionata e la descrive dicendo 'un cane che salta una staccionata, senza elicotteri'", spiega Marzyeh Ghassemi, autrice senior. Poiché i dataset di immagini e didascalie non contengono esempi di negazione, i VLM non imparano mai a identificarla.
"Se qualcosa di così fondamentale come la negazione è difettoso, non dovremmo utilizzare i grandi modelli visione/linguaggio nei modi in cui li stiamo usando ora — senza una valutazione approfondita", afferma Ghassemi, professoressa associata nel Dipartimento di Ingegneria Elettrica e Informatica e membro dell'Istituto di Scienze dell'Ingegneria Medica. La ricerca, che sarà presentata alla Conference on Computer Vision and Pattern Recognition, è stata condotta da un team che include ricercatori del MIT, OpenAI e dell'Università di Oxford.
Questa scoperta ha importanti implicazioni per settori ad alto rischio come il monitoraggio della sicurezza e la sanità. Il lavoro dei ricercatori, che include lo sviluppo di NegBench, un benchmark completo per valutare i modelli visione-linguaggio su compiti specifici di negazione, rappresenta un passo importante verso sistemi di intelligenza artificiale più robusti e capaci di una comprensione linguistica più sfumata, con implicazioni fondamentali per la diagnostica medica e il recupero semantico dei contenuti.