menu
close

MIT afslører central mekanisme bag bias i store sprogmodeller

Forskere fra MIT har identificeret den underliggende årsag til positionsbias i store sprogmodeller (LLM’er) – et fænomen, hvor modellerne overfokuserer på information i begyndelsen og slutningen af dokumenter, mens indholdet i midten overses. Deres teoretiske ramme viser, hvordan specifikke designvalg i modelarkitekturen, især kausal maskering og opmærksomhedsmekanismer, skaber denne bias, selv når den ikke findes i træningsdataene. Dette gennembrud giver afgørende indsigt til udviklingen af mere præcise og pålidelige AI-systemer.
MIT afslører central mekanisme bag bias i store sprogmodeller

Forskere ved MIT har opnået et markant gennembrud i forståelsen af, hvorfor store sprogmodeller (LLM’er) udviser bias, hvilket potentielt kan bane vejen for mere pålidelige AI-systemer.

Holdet har opdaget, at LLM’er lider af såkaldt "positionsbias" – en tendens til at overvægte information i starten og slutningen af dokumenter, mens indholdet i midten overses. Denne bias har praktiske konsekvenser; for eksempel vil en advokat, der bruger en LLM-baseret assistent til at søge i et 30-siders dokument, oftere finde relevant tekst, hvis den står på de første eller sidste sider.

Det banebrydende ved denne opdagelse er, at forskerne har lokaliseret årsagen i selve modelarkitekturen. "Disse modeller er sorte bokse, så som LLM-bruger ved du sandsynligvis ikke, at positionsbias kan gøre din model inkonsistent," forklarer Xinyi Wu, ph.d.-studerende ved MIT og hovedforfatter på forskningen.

Holdet udviklede en grafbaseret teoretisk ramme for at analysere, hvordan information strømmer gennem LLM’ernes maskinlæringsarkitektur. Analysen viste, at visse designvalg – især kausal maskering og opmærksomhedsmekanismer – giver modellerne en iboende bias mod begyndelsen af inputtet, selv når denne bias ikke findes i træningsdataene.

"Selvom det ofte er sandt, at de første og sidste ord i en sætning er vigtigere, kan disse bias være særdeles skadelige, hvis en LLM bruges til opgaver, der ikke handler om naturlig sprogproduktion, såsom rangering eller informationssøgning," bemærker Wu.

Denne forskning supplerer andre nylige studier, der viser, at LLM’er indeholder forskellige former for bias. En separat undersøgelse fra Princeton University fandt, at selv eksplicit upartiske LLM’er stadig udvikler implicitte bias, der minder om mennesker, som bevidst afviser stereotyper, men ubevidst viderefører dem. Ved hjælp af psykologisk inspirerede målemetoder fandt forskerne udbredte stereotypebias på tværs af race, køn, religion og sundhed i otte værdijusterede modeller.

MIT’s resultater giver, hvad Stanford-professor Amin Saberi kalder "et sjældent teoretisk indblik i opmærksomhedsmekanismen, der er kernen i transformer-modellen" og bidrager med både matematisk klarhed og praktisk indsigt i virkelige systemer. Efterhånden som LLM’er i stigende grad integreres i kritiske applikationer, bliver forståelsen og håndteringen af disse iboende bias afgørende for udviklingen af retfærdige og pålidelige AI-teknologier.

Source:

Latest News