menu
close

Les modèles de vision IA échouent à comprendre la négation, mettant en péril la sécurité médicale

Des chercheurs du MIT ont découvert que les modèles vision-langage (VLM) ne comprennent pas les mots de négation comme « non » et « pas », n'obtenant pas de meilleurs résultats que le hasard lors des tests. Cette lacune fondamentale pourrait entraîner de graves erreurs de diagnostic dans le secteur de la santé, où il est crucial de distinguer les conditions présentes et absentes. L'équipe de recherche, dirigée par Kumail Alhamoud et Marzyeh Ghassemi, a développé un outil d'évaluation appelé NegBench pour tester et améliorer ces modèles.
Les modèles de vision IA échouent à comprendre la négation, mettant en péril la sécurité médicale

Une étude révolutionnaire du MIT a mis en lumière une faille critique dans les modèles vision-langage (VLM), qui pourrait avoir de graves conséquences pour leur utilisation en santé et dans d'autres contextes à haut risque.

Dans cette étude, les chercheurs du MIT ont constaté que les VLM sont extrêmement susceptibles de commettre des erreurs dans des situations réelles parce qu'ils ne comprennent pas la négation — des mots comme « non » et « ne...pas » qui précisent ce qui est faux ou absent. « Ces mots de négation peuvent avoir un impact très important, et si nous utilisons ces modèles de façon aveugle, nous pourrions faire face à des conséquences catastrophiques », explique Kumail Alhamoud, étudiant diplômé au MIT et auteur principal de l'étude.

Les chercheurs illustrent le problème avec un exemple médical : imaginez un radiologiste qui examine une radiographie pulmonaire et remarque qu’un patient présente un gonflement des tissus mais n’a pas de cœur élargi. Dans un tel scénario, les modèles vision-langage échoueraient probablement à distinguer ces conditions. Si le modèle identifie par erreur des rapports comportant les deux conditions, les conséquences diagnostiques pourraient être importantes : un patient présentant un gonflement des tissus et un cœur élargi souffre probablement d’un problème cardiaque, mais sans cœur élargi, plusieurs autres causes sous-jacentes sont possibles.

En testant la capacité des modèles vision-langage à reconnaître la négation dans les légendes d’images, les chercheurs ont constaté que les modèles obtenaient souvent des résultats équivalents au hasard. À partir de ces constats, l’équipe a créé un ensemble de données d’images avec des légendes intégrant des mots de négation pour décrire des objets absents. Ils ont démontré qu’un modèle vision-langage réentraîné avec cet ensemble de données améliore ses performances lorsqu’on lui demande de retrouver des images ne contenant pas certains objets. Cela augmente aussi la précision lors de questions à choix multiples avec des légendes négatives. Toutefois, les chercheurs avertissent que d’autres travaux sont nécessaires pour s’attaquer aux causes profondes du problème.

« Ce problème ne se limite pas aux mots comme “non” et “pas”. Peu importe la façon dont on exprime la négation ou l’exclusion, les modèles l’ignorent tout simplement », affirme Alhamoud. Ce constat était constant pour tous les VLM testés. Le problème de fond provient de la façon dont ces modèles sont entraînés. « Les légendes expriment ce qui se trouve dans les images — ce sont des étiquettes positives. Et c’est là tout le problème. Personne ne regarde une image d’un chien sautant par-dessus une clôture et ne la légende en disant “un chien saute par-dessus une clôture, sans hélicoptère” », explique Marzyeh Ghassemi, auteure principale de l’étude. Comme les ensembles de données image-légende ne contiennent pas d’exemples de négation, les VLM n’apprennent jamais à l’identifier.

« Si quelque chose d’aussi fondamental que la négation est défaillant, nous ne devrions pas utiliser les grands modèles vision/langage de la manière dont nous les utilisons actuellement — sans évaluation approfondie », affirme Ghassemi, professeure agrégée au Département de génie électrique et d’informatique et membre de l’Institut des sciences du génie médical. La recherche, qui sera présentée à la Conférence sur la vision par ordinateur et la reconnaissance de formes, a été menée par une équipe comprenant des chercheurs du MIT, d’OpenAI et de l’Université d’Oxford.

Cette découverte a des répercussions majeures pour des domaines critiques comme la surveillance de la sécurité et la santé. Le travail des chercheurs, qui inclut le développement de NegBench — un outil d’évaluation complet pour tester les modèles vision-langage sur des tâches spécifiques à la négation — représente une étape importante vers des systèmes d’IA plus robustes, capables de comprendre les subtilités du langage, avec des implications cruciales pour le diagnostic médical et la recherche sémantique de contenu.

Source: Mit

Latest News