Une nouvelle étude menée par des chercheurs du MIT a mis en lumière une faille fondamentale dans les modèles vision-langage (VLM) qui pourrait avoir de graves conséquences pour le diagnostic médical et d’autres applications critiques.
L’équipe de recherche, dirigée par Kumail Alhamoud et l’auteure principale Marzyeh Ghassemi du département de génie électrique et d’informatique du MIT, a constaté que ces systèmes d’IA — de plus en plus utilisés pour analyser des images médicales — ne parviennent pas à comprendre les mots de négation comme « non » et « ne...pas » dans les requêtes.
Cette limitation s’avère particulièrement problématique dans le contexte médical. Par exemple, lorsqu’un radiologue examine une radiographie pulmonaire montrant un gonflement des tissus sans hypertrophie cardiaque, l’utilisation d’un système d’IA pour trouver des cas similaires pourrait mener à des diagnostics erronés si le modèle ne fait pas la distinction entre la présence et l’absence de certaines conditions.
« Ces mots de négation peuvent avoir un impact très important, et si nous utilisons ces modèles à l’aveugle, nous pourrions faire face à des conséquences catastrophiques », prévient l’auteur principal Alhamoud. Lorsqu’on a testé leur capacité à identifier la négation dans les légendes d’images, les modèles n’ont pas fait mieux que le hasard.
Pour remédier à ce problème, les chercheurs ont développé NegBench, un banc d’essai complet comprenant 79 000 exemples répartis sur 18 variantes de tâches couvrant des ensembles de données d’images, de vidéos et médicales. Ce banc d’essai évalue deux capacités clés : la recherche d’images à partir de requêtes négatives et la réponse à des questions à choix multiples avec des légendes négatives.
L’équipe a également créé des ensembles de données spécifiques à la négation pour réentraîner ces modèles, obtenant une amélioration de 10 % du rappel sur les requêtes négatives et une hausse de 28 % de la précision sur les questions à choix multiples avec des légendes négatives. Cependant, ils soulignent qu’il reste encore beaucoup à faire pour s’attaquer aux causes profondes de ce problème.
« Si quelque chose d’aussi fondamental que la négation ne fonctionne pas, nous ne devrions pas utiliser les grands modèles vision/langage de la manière dont nous les utilisons actuellement — sans évaluation approfondie », insiste Ghassemi.
La recherche sera présentée lors de la prochaine Conférence sur la vision par ordinateur et la reconnaissance de formes, soulignant l’urgence de développer des systèmes d’IA plus robustes pour des applications critiques comme les soins de santé.