Une étude révolutionnaire du MIT a mis en lumière une faille critique dans les modèles vision-langage (VLM), qui pourrait avoir de graves conséquences pour leur utilisation dans le secteur médical et d’autres environnements à haut risque.
Dans cette étude, les chercheurs du MIT ont constaté que les VLM sont extrêmement susceptibles de commettre des erreurs dans des situations réelles, car ils ne comprennent pas la négation — des mots comme « non » et « ne ... pas » qui précisent ce qui est faux ou absent. « Ces mots de négation peuvent avoir un impact très significatif, et si nous utilisons ces modèles à l’aveugle, nous pourrions faire face à des conséquences catastrophiques », explique Kumail Alhamoud, doctorant au MIT et auteur principal de l’étude.
Les chercheurs illustrent le problème par un exemple médical : imaginez un radiologue examinant une radiographie thoracique et constatant qu’un patient présente un œdème des tissus mais n’a pas de cardiomégalie. Dans un tel scénario, les modèles vision-langage échoueraient probablement à distinguer ces conditions. Si le modèle identifie par erreur des rapports mentionnant les deux conditions, les implications pour le diagnostic pourraient être importantes : un patient présentant un œdème des tissus et une cardiomégalie souffre probablement d’une pathologie cardiaque, mais sans cardiomégalie, plusieurs causes sous-jacentes différentes sont possibles.
En testant la capacité des modèles vision-langage à identifier la négation dans des légendes d’images, les chercheurs ont constaté que les modèles obtenaient souvent des résultats équivalents à un choix aléatoire. Sur la base de ces constats, l’équipe a créé un jeu de données d’images accompagnées de légendes contenant des mots de négation décrivant des objets absents. Ils ont montré qu’un modèle vision-langage réentraîné avec ce jeu de données voyait ses performances s’améliorer lorsqu’il s’agissait de retrouver des images ne contenant pas certains objets. Cela augmente également la précision lors de questions à choix multiples avec des légendes négatives. Cependant, les chercheurs soulignent qu’il reste du travail pour traiter les causes profondes de ce problème.
« Cela ne concerne pas seulement les mots comme “non” et “pas”. Quelle que soit la manière d’exprimer la négation ou l’exclusion, les modèles l’ignorent tout simplement », affirme Alhamoud. Ce constat s’est vérifié pour tous les VLM testés. Le problème fondamental provient de la façon dont ces modèles sont entraînés. « Les légendes expriment ce qui est présent dans les images — il s’agit d’une annotation positive. Et c’est là tout le problème. Personne ne regarde une photo d’un chien sautant une barrière et ne la légende en disant “un chien sautant une barrière, sans hélicoptères” », explique Marzyeh Ghassemi, auteure senior. Comme les jeux de données image-légende ne contiennent pas d’exemples de négation, les VLM n’apprennent jamais à l’identifier.
« Si quelque chose d’aussi fondamental que la négation ne fonctionne pas, nous ne devrions pas utiliser les grands modèles vision/langage de la manière dont nous le faisons actuellement — sans évaluation approfondie », prévient Ghassemi, professeure associée au département de génie électrique et d’informatique et membre de l’Institut des sciences du génie médical. Les travaux, qui seront présentés à la conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR), ont été menés par une équipe réunissant des chercheurs du MIT, d’OpenAI et de l’Université d’Oxford.
Cette découverte a des implications majeures pour des domaines sensibles comme la surveillance de la sécurité et la santé. Les travaux des chercheurs, incluant le développement de NegBench, un benchmark complet pour évaluer les modèles vision-langage sur des tâches spécifiques à la négation, constituent une avancée importante vers des systèmes d’IA plus robustes, capables de comprendre les subtilités du langage, avec des conséquences cruciales pour le diagnostic médical et la recherche sémantique de contenu.