Forschende am MIT haben einen bedeutenden Durchbruch im Verständnis darüber erzielt, warum große Sprachmodelle (LLMs) Verzerrungen aufweisen – und ebnen damit möglicherweise den Weg für verlässlichere KI-Systeme.
Das Team entdeckte, dass LLMs unter einem sogenannten „Positions-Bias“ leiden: Sie neigen dazu, Informationen am Anfang und Ende von Dokumenten zu überbewerten, während sie Inhalte in der Mitte vernachlässigen. Diese Verzerrung hat praktische Auswirkungen – etwa wenn eine Juristin mit einem LLM-basierten Assistenten ein 30-seitiges Dokument durchsucht: Das System findet relevante Textstellen mit höherer Wahrscheinlichkeit, wenn sie auf den ersten oder letzten Seiten stehen.
Bahnbrechend an dieser Entdeckung ist, dass die Forschenden die Ursache direkt in der Modellarchitektur identifizierten. „Diese Modelle sind Black Boxes. Als LLM-Nutzerin oder -Nutzer weiß man vermutlich nicht, dass der Positions-Bias das Modell inkonsistent machen kann“, erklärt Xinyi Wu, Doktorandin am MIT und Hauptautorin der Studie.
Das Team entwickelte ein graphenbasiertes theoretisches Rahmenwerk, um den Informationsfluss innerhalb der maschinellen Lernarchitektur von LLMs zu analysieren. Die Analyse zeigte, dass bestimmte Designentscheidungen – insbesondere kausales Maskieren und Aufmerksamkeitsmechanismen – den Modellen eine inhärente Bevorzugung des Anfangs eines Inputs verleihen, selbst wenn diese Verzerrung in den Trainingsdaten nicht existiert.
„Auch wenn es oft stimmt, dass frühere und spätere Wörter in einem Satz wichtiger sind, können diese Verzerrungen bei Aufgaben, die nicht der natürlichen Sprachgenerierung dienen – wie Ranking oder Informationssuche –, äußerst schädlich sein“, betont Wu.
Diese Forschung ergänzt weitere aktuelle Studien, die zeigen, dass LLMs verschiedene Formen von Bias aufweisen. Eine separate Untersuchung der Princeton University ergab, dass selbst explizit unvoreingenommene LLMs implizite Verzerrungen entwickeln – ähnlich wie Menschen, die Stereotype bewusst ablehnen, sie aber unbewusst dennoch fortführen. Mithilfe psychologisch inspirierter Messmethoden fanden die Forschenden weit verbreitete Stereotypen-Biases in den Bereichen Rasse, Geschlecht, Religion und Gesundheit in acht wertbasierten Modellen.
Die MIT-Ergebnisse bieten laut Stanford-Professor Amin Saberi „eine seltene theoretische Perspektive auf den Aufmerksamkeitsmechanismus im Kern des Transformer-Modells“ und liefern sowohl mathematische Klarheit als auch praktische Einblicke in reale Systeme. Da LLMs zunehmend in kritische Anwendungen integriert werden, ist das Verständnis und die Beseitigung dieser inhärenten Verzerrungen essenziell für die Entwicklung fairer und verlässlicher KI-Technologien.