Une faille critique dans les systèmes d’intelligence artificielle utilisés pour analyser les images médicales pourrait mettre les patients en danger, selon une nouvelle étude du MIT publiée cette semaine.
L’étude, menée par l’étudiant aux cycles supérieurs Kumail Alhamoud et la professeure agrégée Marzyeh Ghassemi, révèle que les modèles vision-langage (VLM) — des systèmes d’IA largement déployés dans les milieux de la santé — échouent fondamentalement à comprendre les mots de négation comme « non » et « pas » lors de l’analyse d’images médicales.
« Ces mots de négation peuvent avoir un impact très important, et si nous utilisons ces modèles à l’aveugle, nous pourrions faire face à des conséquences catastrophiques », avertit Alhamoud, auteur principal de l’étude.
Les chercheurs ont illustré ce problème par un exemple clinique : si un radiologiste examine une radiographie pulmonaire montrant un gonflement des tissus mais pas de cœur élargi, un système d’IA pourrait à tort récupérer des cas présentant les deux conditions, menant potentiellement à un diagnostic complètement différent. Lors de tests formels, ces modèles d’IA n’ont pas fait mieux que le hasard dans les tâches impliquant la négation.
Pour remédier à cette limitation majeure, l’équipe a développé NegBench, un cadre d’évaluation complet couvrant 18 variantes de tâches et 79 000 exemples à travers des ensembles de données d’images, de vidéos et médicales. Leur solution proposée consiste à réentraîner les VLM avec des ensembles de données spécialement créés contenant des millions de légendes négatives, ce qui a donné des résultats prometteurs : une amélioration de 10 % du rappel sur les requêtes négatives et une hausse de 28 % de la précision sur les questions à choix multiples comportant des légendes négatives.
« Si quelque chose d’aussi fondamental que la négation ne fonctionne pas, nous ne devrions pas utiliser les grands modèles vision/langage de la façon dont nous le faisons actuellement — sans évaluation approfondie », prévient Ghassemi, soulignant la nécessité d’une évaluation rigoureuse avant de déployer ces systèmes dans des contextes médicaux à haut risque.
La recherche, qui inclut des collaborateurs d’OpenAI et de l’Université d’Oxford, sera présentée à la prochaine Conférence sur la vision par ordinateur et la reconnaissance de formes. L’équipe a rendu public son banc d’essai et son code afin de contribuer à régler cette question cruciale de sécurité en IA.