menu
close

Les systèmes d’IA médicale échouent à comprendre la négation dans l’analyse d’images

Des chercheurs du MIT ont découvert que les modèles vision-langage utilisés en imagerie médicale ne comprennent pas les mots de négation comme « non » et « pas », ce qui pourrait entraîner des erreurs de diagnostic dangereuses. Lors de tests sur des tâches de négation, ces systèmes d’IA n’ont pas fait mieux que le hasard, soulevant de sérieuses inquiétudes quant à leur utilisation en milieu de santé. Les chercheurs ont créé un nouveau banc d’essai appelé NegBench et proposé des solutions qui pourraient améliorer la compréhension de la négation jusqu’à 28 %.
Les systèmes d’IA médicale échouent à comprendre la négation dans l’analyse d’images

Une faille critique dans les systèmes d’intelligence artificielle utilisés pour analyser les images médicales pourrait mettre les patients en danger, selon une nouvelle étude du MIT publiée cette semaine.

L’étude, menée par l’étudiant aux cycles supérieurs Kumail Alhamoud et la professeure agrégée Marzyeh Ghassemi, révèle que les modèles vision-langage (VLM) — des systèmes d’IA largement déployés dans les milieux de la santé — échouent fondamentalement à comprendre les mots de négation comme « non » et « pas » lors de l’analyse d’images médicales.

« Ces mots de négation peuvent avoir un impact très important, et si nous utilisons ces modèles à l’aveugle, nous pourrions faire face à des conséquences catastrophiques », avertit Alhamoud, auteur principal de l’étude.

Les chercheurs ont illustré ce problème par un exemple clinique : si un radiologiste examine une radiographie pulmonaire montrant un gonflement des tissus mais pas de cœur élargi, un système d’IA pourrait à tort récupérer des cas présentant les deux conditions, menant potentiellement à un diagnostic complètement différent. Lors de tests formels, ces modèles d’IA n’ont pas fait mieux que le hasard dans les tâches impliquant la négation.

Pour remédier à cette limitation majeure, l’équipe a développé NegBench, un cadre d’évaluation complet couvrant 18 variantes de tâches et 79 000 exemples à travers des ensembles de données d’images, de vidéos et médicales. Leur solution proposée consiste à réentraîner les VLM avec des ensembles de données spécialement créés contenant des millions de légendes négatives, ce qui a donné des résultats prometteurs : une amélioration de 10 % du rappel sur les requêtes négatives et une hausse de 28 % de la précision sur les questions à choix multiples comportant des légendes négatives.

« Si quelque chose d’aussi fondamental que la négation ne fonctionne pas, nous ne devrions pas utiliser les grands modèles vision/langage de la façon dont nous le faisons actuellement — sans évaluation approfondie », prévient Ghassemi, soulignant la nécessité d’une évaluation rigoureuse avant de déployer ces systèmes dans des contextes médicaux à haut risque.

La recherche, qui inclut des collaborateurs d’OpenAI et de l’Université d’Oxford, sera présentée à la prochaine Conférence sur la vision par ordinateur et la reconnaissance de formes. L’équipe a rendu public son banc d’essai et son code afin de contribuer à régler cette question cruciale de sécurité en IA.

Source:

Latest News