Un difetto critico nei sistemi di intelligenza artificiale utilizzati per analizzare immagini mediche potrebbe mettere a rischio i pazienti, secondo una nuova ricerca del MIT pubblicata questa settimana.
Lo studio, guidato dallo studente laureato Kumail Alhamoud e dalla professoressa associata Marzyeh Ghassemi, rivela che i modelli visione-linguaggio (VLM) – sistemi di IA ampiamente impiegati in ambito sanitario – non riescono fondamentalmente a comprendere parole di negazione come 'no' e 'non' durante l’analisi delle immagini mediche.
"Queste parole di negazione possono avere un impatto molto significativo, e se utilizziamo questi modelli alla cieca potremmo incorrere in conseguenze catastrofiche", avverte Alhamoud, autore principale dello studio.
I ricercatori hanno dimostrato il problema con un esempio clinico: se un radiologo esamina una radiografia toracica che mostra gonfiore dei tessuti ma nessun ingrossamento cardiaco, un sistema di IA potrebbe recuperare erroneamente casi con entrambe le condizioni, portando potenzialmente a una diagnosi completamente diversa. Nei test formali, questi modelli di IA hanno ottenuto risultati non migliori del caso nei compiti di negazione.
Per affrontare questa limitazione critica, il team ha sviluppato NegBench, un quadro di valutazione completo che copre 18 varianti di compiti e 79.000 esempi su dataset di immagini, video e medici. La soluzione proposta prevede il riaddestramento dei VLM con dataset appositamente creati contenenti milioni di didascalie negate, mostrando risultati promettenti: un miglioramento del richiamo nelle query negate del 10% e un aumento dell’accuratezza nelle domande a scelta multipla con didascalie negate del 28%.
"Se qualcosa di fondamentale come la negazione non funziona, non dovremmo utilizzare i grandi modelli visione/linguaggio nei modi in cui li stiamo usando ora – senza una valutazione approfondita", avverte Ghassemi, sottolineando la necessità di un’attenta valutazione prima di implementare questi sistemi in ambienti medici ad alto rischio.
La ricerca, che vede la collaborazione di OpenAI e dell’Università di Oxford, sarà presentata alla prossima Conference on Computer Vision and Pattern Recognition. Il team ha reso pubblico il benchmark e il codice per contribuire ad affrontare questa importante questione di sicurezza dell’IA.