Un nuovo studio condotto da ricercatori del MIT ha rivelato un difetto fondamentale nei modelli visione-linguaggio (VLM), che potrebbe avere serie implicazioni per la diagnostica medica e altre applicazioni critiche.
Il team di ricerca, guidato da Kumail Alhamoud e dall’autrice senior Marzyeh Ghassemi del Dipartimento di Ingegneria Elettrica e Informatica del MIT, ha scoperto che questi sistemi di intelligenza artificiale—sempre più utilizzati per analizzare immagini mediche—non riescono a comprendere parole di negazione come 'no' e 'non' nelle query.
Questa limitazione diventa particolarmente problematica in ambito medico. Ad esempio, quando un radiologo esamina una radiografia toracica che mostra gonfiore dei tessuti senza un ingrossamento del cuore, l’utilizzo di un sistema AI per trovare casi simili potrebbe portare a diagnosi errate se il modello non è in grado di distinguere tra la presenza e l’assenza di condizioni specifiche.
"Queste parole di negazione possono avere un impatto molto significativo e, se utilizziamo questi modelli ciecamente, potremmo andare incontro a conseguenze catastrofiche", avverte l’autore principale Alhamoud. Quando sono stati testati sulla loro capacità di identificare la negazione nelle didascalie delle immagini, i modelli non hanno ottenuto risultati migliori di un’estrazione casuale.
Per affrontare questo problema, i ricercatori hanno sviluppato NegBench, un benchmark completo con 79.000 esempi su 18 varianti di task che coprono dataset di immagini, video e dati medici. Il benchmark valuta due capacità fondamentali: il recupero di immagini sulla base di query negate e la risposta a domande a scelta multipla con didascalie negate.
Il team ha inoltre creato dataset con esempi specifici di negazione per riaddestrare questi modelli, ottenendo un miglioramento del 10% nel recall sulle query negate e un incremento del 28% nell’accuratezza sulle domande a scelta multipla con didascalie negate. Tuttavia, avvertono che è necessario un ulteriore lavoro per affrontare le cause profonde di questo problema.
"Se qualcosa di fondamentale come la negazione non funziona, non dovremmo utilizzare i grandi modelli visione/linguaggio nei molti modi in cui li stiamo usando ora—senza una valutazione approfondita", sottolinea Ghassemi.
La ricerca sarà presentata alla prossima Conference on Computer Vision and Pattern Recognition, evidenziando l’urgente necessità di sistemi AI più robusti per applicazioni critiche come la sanità.