Onderzoekers van het Massachusetts Institute of Technology (MIT) hebben een belangrijke doorbraak bereikt in het begrijpen waarom grote taalmodellen (LLM's) bias vertonen, wat mogelijk de weg vrijmaakt voor betrouwbaardere AI-systemen.
Het team ontdekte dat LLM's last hebben van 'positionele bias': een neiging om informatie aan het begin en einde van documenten te overwaarderen en de inhoud in het midden te negeren. Deze bias heeft praktische gevolgen—zo zal een LLM-gestuurde assistent die een advocaat gebruikt om een document van 30 pagina's te doorzoeken, eerder relevante tekst vinden als deze op de eerste of laatste pagina's staat.
Wat deze ontdekking baanbrekend maakt, is dat de onderzoekers de oorzaak binnen de modelarchitectuur zelf hebben geïdentificeerd. "Deze modellen zijn black boxes, dus als gebruiker van een LLM weet je waarschijnlijk niet dat positionele bias je model inconsistent kan maken," legt Xinyi Wu uit, promovendus aan MIT en hoofdauteur van het onderzoek.
Het team ontwikkelde een theoretisch raamwerk op basis van grafen om te analyseren hoe informatie door de machine learning-architectuur van LLM's stroomt. Hun analyse toonde aan dat bepaalde ontwerpkeuzes—met name causale masking en attention-mechanismen—ervoor zorgen dat modellen een inherente voorkeur krijgen voor het begin van een invoer, zelfs als die bias niet in de trainingsdata aanwezig is.
"Hoewel het vaak waar is dat eerdere en latere woorden in een zin belangrijker zijn, kunnen deze biases zeer schadelijk zijn als een LLM wordt ingezet voor taken die geen natuurlijke taal generatie zijn, zoals ranking of informatieopvraging," merkt Wu op.
Dit onderzoek vult andere recente studies aan die aantonen dat LLM's verschillende vormen van bias bevatten. Een afzonderlijke studie van Princeton University wees uit dat zelfs expliciet onbevooroordeelde LLM's nog steeds impliciete biases ontwikkelen, vergelijkbaar met mensen die bewust stereotypen afwijzen maar ze onbewust toch in stand houden. Met behulp van door psychologie geïnspireerde meetmethoden ontdekten onderzoekers wijdverspreide stereotype biases op het gebied van ras, geslacht, religie en gezondheid in acht waarde-gealigneerde modellen.
De bevindingen van MIT bieden wat Stanford-professor Amin Saberi "een zeldzaam theoretisch perspectief op het attention-mechanisme in het hart van het transformer-model" noemt, en leveren zowel wiskundige helderheid als praktische inzichten in systemen uit de echte wereld. Nu LLM's steeds vaker worden geïntegreerd in kritieke toepassingen, is het begrijpen en aanpakken van deze inherente biases essentieel voor de ontwikkeling van eerlijke en betrouwbare AI-technologieën.