Les modèles de vision par IA échouent à comprendre la négation, mettant en danger la fiabilité médicale

Des chercheurs du MIT ont découvert que les modèles vision-langage (VLM) ne comprennent pas les mots de négation comme « non » et « pas », n’obtenant pas de meilleurs résultats que le hasard lors des tests. Cette faille fondamentale pourrait entraîner de graves erreurs de diagnostic dans le secteur médical, où distinguer les conditions présentes et absentes est crucial. L’équipe de recherche, dirigée par Kumail Alhamoud et Marzyeh Ghassemi, a développé un benchmark appelé NegBench pour évaluer et améliorer ces modèles.

Une étude révolutionnaire du MIT a mis en lumière une faille critique dans les modèles vision-langage (VLM), qui pourrait avoir de graves conséquences pour leur utilisation dans le secteur médical et d’autres environnements à haut risque.

Dans cette étude, les chercheurs du MIT ont constaté que les VLM sont extrêmement susceptibles de commettre des erreurs dans des situations réelles, car ils ne comprennent pas la négation — des mots comme « non » et « ne ... pas » qui précisent ce qui est faux ou absent. « Ces mots de négation peuvent avoir un impact très significatif, et si nous utilisons ces modèles à l’aveugle, nous pourrions faire face à des conséquences catastrophiques », explique Kumail Alhamoud, doctorant au MIT et auteur principal de l’étude.

Les chercheurs illustrent le problème par un exemple médical : imaginez un radiologue examinant une radiographie thoracique et constatant qu’un patient présente un œdème des tissus mais n’a pas de cardiomégalie. Dans un tel scénario, les modèles vision-langage échoueraient probablement à distinguer ces conditions. Si le modèle identifie par erreur des rapports mentionnant les deux conditions, les implications pour le diagnostic pourraient être importantes : un patient présentant un œdème des tissus et une cardiomégalie souffre probablement d’une pathologie cardiaque, mais sans cardiomégalie, plusieurs causes sous-jacentes différentes sont possibles.

En testant la capacité des modèles vision-langage à identifier la négation dans des légendes d’images, les chercheurs ont constaté que les modèles obtenaient souvent des résultats équivalents à un choix aléatoire. Sur la base de ces constats, l’équipe a créé un jeu de données d’images accompagnées de légendes contenant des mots de négation décrivant des objets absents. Ils ont montré qu’un modèle vision-langage réentraîné avec ce jeu de données voyait ses performances s’améliorer lorsqu’il s’agissait de retrouver des images ne contenant pas certains objets. Cela augmente également la précision lors de questions à choix multiples avec des légendes négatives. Cependant, les chercheurs soulignent qu’il reste du travail pour traiter les causes profondes de ce problème.

« Cela ne concerne pas seulement les mots comme “non” et “pas”. Quelle que soit la manière d’exprimer la négation ou l’exclusion, les modèles l’ignorent tout simplement », affirme Alhamoud. Ce constat s’est vérifié pour tous les VLM testés. Le problème fondamental provient de la façon dont ces modèles sont entraînés. « Les légendes expriment ce qui est présent dans les images — il s’agit d’une annotation positive. Et c’est là tout le problème. Personne ne regarde une photo d’un chien sautant une barrière et ne la légende en disant “un chien sautant une barrière, sans hélicoptères” », explique Marzyeh Ghassemi, auteure senior. Comme les jeux de données image-légende ne contiennent pas d’exemples de négation, les VLM n’apprennent jamais à l’identifier.

« Si quelque chose d’aussi fondamental que la négation ne fonctionne pas, nous ne devrions pas utiliser les grands modèles vision/langage de la manière dont nous le faisons actuellement — sans évaluation approfondie », prévient Ghassemi, professeure associée au département de génie électrique et d’informatique et membre de l’Institut des sciences du génie médical. Les travaux, qui seront présentés à la conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR), ont été menés par une équipe réunissant des chercheurs du MIT, d’OpenAI et de l’Université d’Oxford.

Cette découverte a des implications majeures pour des domaines sensibles comme la surveillance de la sécurité et la santé. Les travaux des chercheurs, incluant le développement de NegBench, un benchmark complet pour évaluer les modèles vision-langage sur des tâches spécifiques à la négation, constituent une avancée importante vers des systèmes d’IA plus robustes, capables de comprendre les subtilités du langage, avec des conséquences cruciales pour le diagnostic médical et la recherche sémantique de contenu.

Les modèles de vision par IA échouent à comprendre la négation, mettant en danger la fiabilité médicale

Latest News

Le Doubao AI de ByteDance propose désormais une assistance vidéo en temps réel

OnePlus abandonne le Slider d’Alerte au profit de la touche Plus alimentée par l’IA

Les géants allemands de la tech s’unissent pour une gigafactory d’IA soutenue par l’UE

Les procureurs américains ont enquêté sur Builder.ai avant l’effondrement de la startup d’IA valorisée à 1,5 milliard de dollars

Le fonds norvégien de 1 800 milliards de dollars rend l’IA incontournable pour ses employés

OpenTools.ai dévoile un hub d’actualités IA pour les professionnels de la tech

Google étend le contrôle informatique par l'IA aux développeurs via Gemini

Google améliore les modèles Gemini avec des résumés transparents de la réflexion

Les modèles de vision par IA échouent à comprendre la négation, mettant en danger la fiabilité médicale

Related Articles

OnePlus abandonne le Slider d’Alerte au profit de la touche Plus alimentée par l’IA

Les géants allemands de la tech s’unissent pour une gigafactory d’IA soutenue par l’UE

Les procureurs américains ont enquêté sur Builder.ai avant l’effondrement de la startup d’IA valorisée à 1,5 milliard de dollars

Latest News

Le Doubao AI de ByteDance propose désormais une assistance vidéo en temps réel

OnePlus abandonne le Slider d’Alerte au profit de la touche Plus alimentée par l’IA

Les géants allemands de la tech s’unissent pour une gigafactory d’IA soutenue par l’UE

Les procureurs américains ont enquêté sur Builder.ai avant l’effondrement de la startup d’IA valorisée à 1,5 milliard de dollars

Le fonds norvégien de 1 800 milliards de dollars rend l’IA incontournable pour ses employés

OpenTools.ai dévoile un hub d’actualités IA pour les professionnels de la tech

Google étend le contrôle informatique par l'IA aux développeurs via Gemini

Google améliore les modèles Gemini avec des résumés transparents de la réflexion