Des chercheurs du MIT ont réalisé une avancée majeure dans la compréhension des raisons pour lesquelles les grands modèles de langage (LLM) présentent des biais, ouvrant ainsi la voie à des systèmes d’IA plus fiables.
L’équipe a découvert que les LLM souffrent d’un « biais de position », c’est-à-dire une tendance à accorder une importance excessive aux informations situées au début et à la fin des documents, tout en négligeant le contenu du milieu. Ce biais a des répercussions concrètes : par exemple, lorsqu’un avocat utilise un assistant alimenté par un LLM pour rechercher dans un document de 30 pages, le système est plus susceptible de trouver un texte pertinent s’il se trouve sur les premières ou dernières pages.
Ce qui rend cette découverte révolutionnaire, c’est que les chercheurs ont identifié la cause profonde dans l’architecture même du modèle. « Ces modèles sont des boîtes noires, donc en tant qu’utilisateur d’un LLM, vous ne savez probablement pas que le biais de position peut rendre votre modèle incohérent », explique Xinyi Wu, étudiante aux cycles supérieurs au MIT et auteure principale de la recherche.
L’équipe a construit un cadre théorique basé sur des graphes pour analyser la façon dont l’information circule à travers l’architecture d’apprentissage automatique des LLM. Leur analyse a révélé que certains choix de conception — en particulier le masquage causal et les mécanismes d’attention — confèrent aux modèles un biais inhérent en faveur du début d’une entrée, même si ce biais n’existe pas dans les données d’entraînement.
« Bien qu’il soit souvent vrai que les premiers et derniers mots d’une phrase sont plus importants, si un LLM est utilisé pour une tâche qui n’est pas la génération de langage naturel, comme le classement ou la recherche d’information, ces biais peuvent être extrêmement nuisibles », souligne Wu.
Cette recherche s’ajoute à d’autres études récentes montrant que les LLM présentent diverses formes de biais. Une étude distincte de l’Université Princeton a révélé que même les LLM explicitement conçus pour être impartiaux développent tout de même des biais implicites, similaires à ceux d’humains qui rejettent consciemment les stéréotypes mais les perpétuent inconsciemment. À l’aide de mesures inspirées de la psychologie, les chercheurs ont détecté des biais stéréotypés répandus selon la race, le genre, la religion et la santé dans huit modèles alignés sur des valeurs.
Les résultats du MIT offrent ce que le professeur Amin Saberi de Stanford qualifie de « rare perspective théorique sur le mécanisme d’attention au cœur du modèle transformeur », apportant à la fois une clarté mathématique et des pistes concrètes pour les systèmes du monde réel. Alors que les LLM sont de plus en plus intégrés à des applications critiques, comprendre et corriger ces biais inhérents sera essentiel pour développer des technologies d’IA équitables et fiables.