menu
close

Les systèmes d’IA médicale incapables de comprendre la négation dans l’analyse d’images

Des chercheurs du MIT ont découvert que les modèles vision-langage utilisés en imagerie médicale ne comprennent pas les mots de négation comme « non » et « pas », ce qui pourrait entraîner des erreurs de diagnostic dangereuses. Lors de tests sur des tâches de négation, ces systèmes d’IA n’ont pas obtenu de meilleurs résultats que le hasard, soulevant de sérieuses inquiétudes quant à leur utilisation en milieu médical. Les chercheurs ont développé un nouveau benchmark appelé NegBench et proposent des solutions qui pourraient améliorer la compréhension de la négation jusqu’à 28 %.
Les systèmes d’IA médicale incapables de comprendre la négation dans l’analyse d’images

Une faille critique dans les systèmes d’intelligence artificielle utilisés pour analyser les images médicales pourrait mettre les patients en danger, selon une nouvelle étude du MIT publiée cette semaine.

L’étude, menée par l’étudiant en doctorat Kumail Alhamoud et la professeure associée Marzyeh Ghassemi, révèle que les modèles vision-langage (VLM) – des systèmes d’IA largement déployés dans le secteur de la santé – échouent fondamentalement à comprendre les mots de négation tels que « non » et « pas » lors de l’analyse d’images médicales.

« Ces mots de négation peuvent avoir un impact très important, et si nous utilisons ces modèles à l’aveugle, nous risquons des conséquences catastrophiques », avertit Alhamoud, auteur principal de l’étude.

Les chercheurs illustrent ce problème par un exemple clinique : si un radiologue examine une radiographie thoracique montrant un gonflement des tissus mais pas de cardiomégalie, un système d’IA pourrait à tort retrouver des cas présentant les deux conditions, menant potentiellement à un diagnostic totalement différent. Lors de tests formels, ces modèles d’IA n’ont pas fait mieux que le hasard sur les tâches impliquant la négation.

Pour remédier à cette limite majeure, l’équipe a développé NegBench, un cadre d’évaluation complet couvrant 18 variantes de tâches et 79 000 exemples issus de jeux de données d’images, de vidéos et de médecine. Leur solution consiste à réentraîner les VLM avec des jeux de données spécialement conçus, contenant des millions de légendes négatives, ce qui a donné des résultats prometteurs : une amélioration de 10 % du rappel sur les requêtes négatives et une hausse de 28 % de la précision sur les questions à choix multiples comportant des légendes négatives.

« Si quelque chose d’aussi fondamental que la négation ne fonctionne pas, nous ne devrions pas utiliser les grands modèles vision/langage de la façon dont nous le faisons actuellement – sans évaluation approfondie », met en garde Ghassemi, soulignant la nécessité d’une évaluation rigoureuse avant de déployer ces systèmes dans des environnements médicaux à haut risque.

La recherche, menée en collaboration avec OpenAI et l’Université d’Oxford, sera présentée lors de la prochaine Conférence sur la vision par ordinateur et la reconnaissance de formes. L’équipe a rendu son benchmark et son code publics afin de contribuer à la résolution de cette question cruciale de sécurité de l’IA.

Source:

Latest News