Forskere ved MIT har opnået et markant gennembrud i forståelsen af, hvorfor store sprogmodeller (LLM’er) udviser bias, hvilket potentielt kan bane vejen for mere pålidelige AI-systemer.
Holdet har opdaget, at LLM’er lider af såkaldt "positionsbias" – en tendens til at overvægte information i starten og slutningen af dokumenter, mens indholdet i midten overses. Denne bias har praktiske konsekvenser; for eksempel vil en advokat, der bruger en LLM-baseret assistent til at søge i et 30-siders dokument, oftere finde relevant tekst, hvis den står på de første eller sidste sider.
Det banebrydende ved denne opdagelse er, at forskerne har lokaliseret årsagen i selve modelarkitekturen. "Disse modeller er sorte bokse, så som LLM-bruger ved du sandsynligvis ikke, at positionsbias kan gøre din model inkonsistent," forklarer Xinyi Wu, ph.d.-studerende ved MIT og hovedforfatter på forskningen.
Holdet udviklede en grafbaseret teoretisk ramme for at analysere, hvordan information strømmer gennem LLM’ernes maskinlæringsarkitektur. Analysen viste, at visse designvalg – især kausal maskering og opmærksomhedsmekanismer – giver modellerne en iboende bias mod begyndelsen af inputtet, selv når denne bias ikke findes i træningsdataene.
"Selvom det ofte er sandt, at de første og sidste ord i en sætning er vigtigere, kan disse bias være særdeles skadelige, hvis en LLM bruges til opgaver, der ikke handler om naturlig sprogproduktion, såsom rangering eller informationssøgning," bemærker Wu.
Denne forskning supplerer andre nylige studier, der viser, at LLM’er indeholder forskellige former for bias. En separat undersøgelse fra Princeton University fandt, at selv eksplicit upartiske LLM’er stadig udvikler implicitte bias, der minder om mennesker, som bevidst afviser stereotyper, men ubevidst viderefører dem. Ved hjælp af psykologisk inspirerede målemetoder fandt forskerne udbredte stereotypebias på tværs af race, køn, religion og sundhed i otte værdijusterede modeller.
MIT’s resultater giver, hvad Stanford-professor Amin Saberi kalder "et sjældent teoretisk indblik i opmærksomhedsmekanismen, der er kernen i transformer-modellen" og bidrager med både matematisk klarhed og praktisk indsigt i virkelige systemer. Efterhånden som LLM’er i stigende grad integreres i kritiske applikationer, bliver forståelsen og håndteringen af disse iboende bias afgørende for udviklingen af retfærdige og pålidelige AI-teknologier.