I modelli di visione AI falliscono il test critico della negazione nell’imaging medico

I ricercatori del MIT hanno scoperto che i modelli visione-linguaggio, ampiamente utilizzati nell’analisi delle immagini mediche, non sono in grado di comprendere parole di negazione come 'no' e 'non'. Questa grave limitazione potrebbe portare a errori diagnostici seri quando questi sistemi AI vengono utilizzati per recuperare immagini mediche con criteri specifici. Lo studio, pubblicato il 14 maggio 2025, introduce NegBench, un nuovo benchmark per valutare e migliorare la comprensione della negazione nei sistemi di visione AI.

Un nuovo studio condotto da ricercatori del MIT ha rivelato un difetto fondamentale nei modelli visione-linguaggio (VLM), che potrebbe avere serie implicazioni per la diagnostica medica e altre applicazioni critiche.

Il team di ricerca, guidato da Kumail Alhamoud e dall’autrice senior Marzyeh Ghassemi del Dipartimento di Ingegneria Elettrica e Informatica del MIT, ha scoperto che questi sistemi di intelligenza artificiale—sempre più utilizzati per analizzare immagini mediche—non riescono a comprendere parole di negazione come 'no' e 'non' nelle query.

Questa limitazione diventa particolarmente problematica in ambito medico. Ad esempio, quando un radiologo esamina una radiografia toracica che mostra gonfiore dei tessuti senza un ingrossamento del cuore, l’utilizzo di un sistema AI per trovare casi simili potrebbe portare a diagnosi errate se il modello non è in grado di distinguere tra la presenza e l’assenza di condizioni specifiche.

"Queste parole di negazione possono avere un impatto molto significativo e, se utilizziamo questi modelli ciecamente, potremmo andare incontro a conseguenze catastrofiche", avverte l’autore principale Alhamoud. Quando sono stati testati sulla loro capacità di identificare la negazione nelle didascalie delle immagini, i modelli non hanno ottenuto risultati migliori di un’estrazione casuale.

Per affrontare questo problema, i ricercatori hanno sviluppato NegBench, un benchmark completo con 79.000 esempi su 18 varianti di task che coprono dataset di immagini, video e dati medici. Il benchmark valuta due capacità fondamentali: il recupero di immagini sulla base di query negate e la risposta a domande a scelta multipla con didascalie negate.

Il team ha inoltre creato dataset con esempi specifici di negazione per riaddestrare questi modelli, ottenendo un miglioramento del 10% nel recall sulle query negate e un incremento del 28% nell’accuratezza sulle domande a scelta multipla con didascalie negate. Tuttavia, avvertono che è necessario un ulteriore lavoro per affrontare le cause profonde di questo problema.

"Se qualcosa di fondamentale come la negazione non funziona, non dovremmo utilizzare i grandi modelli visione/linguaggio nei molti modi in cui li stiamo usando ora—senza una valutazione approfondita", sottolinea Ghassemi.

La ricerca sarà presentata alla prossima Conference on Computer Vision and Pattern Recognition, evidenziando l’urgente necessità di sistemi AI più robusti per applicazioni critiche come la sanità.

Source:

I modelli di visione AI falliscono il test critico della negazione nell’imaging medico

Latest News

Doubao AI di ByteDance ora offre assistenza video in tempo reale

OnePlus abbandona l’Alert Slider per il nuovo tasto Plus alimentato dall’IA

I giganti tecnologici tedeschi si uniscono per una gigafabbrica di IA sostenuta dall’UE

I Procuratori USA Indagarono su Builder.ai Prima del Crollo della Startup AI da 1,5 Miliardi di Dollari

Il Fondo Norvegese da 1.800 Miliardi di Dollari Rende l’IA Obbligatoria per il Personale

OpenTools.ai lancia AI News Hub per i professionisti della tecnologia

Google Estende il Controllo AI del Computer agli Sviluppatori tramite Gemini

Google migliora i modelli Gemini con riepiloghi trasparenti del processo di pensiero

I modelli di visione AI falliscono il test critico della negazione nell’imaging medico

Related Articles

I modelli Claude 4 di Anthropic stabiliscono un nuovo standard nell’AI per la programmazione

Gli analisti confermano il rating 'Moderato Acquisto' per CCC Intelligent Solutions

La NASA Svela una Strategia Audace sull’Intelligenza Artificiale per il Prossimo Decennio di Esplorazione Spaziale

Ex-scienziato di OpenAI pianificava un bunker per un mondo post-AGI

Latest News

Doubao AI di ByteDance ora offre assistenza video in tempo reale

OnePlus abbandona l’Alert Slider per il nuovo tasto Plus alimentato dall’IA

I giganti tecnologici tedeschi si uniscono per una gigafabbrica di IA sostenuta dall’UE

I Procuratori USA Indagarono su Builder.ai Prima del Crollo della Startup AI da 1,5 Miliardi di Dollari

Il Fondo Norvegese da 1.800 Miliardi di Dollari Rende l’IA Obbligatoria per il Personale

OpenTools.ai lancia AI News Hub per i professionisti della tecnologia

Google Estende il Controllo AI del Computer agli Sviluppatori tramite Gemini

Google migliora i modelli Gemini con riepiloghi trasparenti del processo di pensiero