Une nouvelle étude menée par des chercheurs du MIT a mis en lumière une faille fondamentale dans les modèles vision-langage (VLM), qui pourrait avoir de sérieuses conséquences pour le diagnostic médical et d’autres applications critiques.
L’équipe de recherche, dirigée par Kumail Alhamoud et l’autrice principale Marzyeh Ghassemi du département de génie électrique et d’informatique du MIT, a constaté que ces systèmes d’IA — de plus en plus utilisés pour analyser des images médicales — ne parviennent pas à comprendre les mots de négation tels que « non » et « pas » dans les requêtes.
Cette limitation devient particulièrement problématique dans le domaine médical. Par exemple, lorsqu’un radiologue examine une radiographie thoracique montrant un gonflement des tissus sans cardiomégalie, l’utilisation d’un système d’IA pour retrouver des cas similaires pourrait conduire à des diagnostics erronés si le modèle ne distingue pas la présence ou l’absence de certaines conditions.
« Ces mots de négation peuvent avoir un impact très significatif, et si nous utilisons ces modèles à l’aveugle, nous risquons des conséquences catastrophiques », avertit l’auteur principal Alhamoud. Lorsqu’ils ont été testés sur leur capacité à identifier la négation dans des légendes d’images, les modèles n’ont pas obtenu de meilleurs résultats qu’un choix aléatoire.
Pour remédier à ce problème, les chercheurs ont développé NegBench, un benchmark complet comprenant 79 000 exemples répartis sur 18 variantes de tâches couvrant des ensembles de données d’images, de vidéos et médicales. Ce benchmark évalue deux compétences clés : la capacité à retrouver des images à partir de requêtes négatives et à répondre à des questions à choix multiples avec des légendes comportant des négations.
L’équipe a également créé des ensembles de données spécifiques à la négation pour réentraîner ces modèles, obtenant une amélioration de 10 % du rappel sur les requêtes négatives et une augmentation de 28 % de la précision sur les questions à choix multiples avec des légendes négatives. Cependant, ils soulignent que des efforts supplémentaires sont nécessaires pour traiter les causes profondes de ce problème.
« Si quelque chose d’aussi fondamental que la négation ne fonctionne pas, nous ne devrions pas utiliser les grands modèles vision/langage de la manière dont nous les utilisons actuellement — sans évaluation approfondie », insiste Ghassemi.
Les résultats de cette recherche seront présentés lors de la prochaine Conférence sur la vision par ordinateur et la reconnaissance de formes, soulignant l’urgence de développer des systèmes d’IA plus robustes pour les applications critiques telles que la santé.