Výskumníci z MIT dosiahli významný prelom v pochopení toho, prečo veľké jazykové modely (LLM) vykazujú zaujatosti, čo by mohlo otvoriť cestu k spoľahlivejším AI systémom.
Tím zistil, že LLM trpia tzv. „pozičnou zaujatostou“ – tendenciou preceňovať informácie na začiatku a konci dokumentov, pričom obsah v strede je zanedbávaný. Táto zaujatost má praktické dôsledky – napríklad ak právnik využíva asistenta poháňaného LLM na prehľadávanie 30-stranového dokumentu, systém s väčšou pravdepodobnosťou nájde relevantný text, ak sa nachádza na prvých alebo posledných stranách.
Prelomovosť tohto objavu spočíva v tom, že výskumníci identifikovali samotnú príčinu v architektúre modelu. „Tieto modely sú čierne skrinky, takže ako používateľ LLM pravdepodobne netušíte, že pozičná zaujatost môže spôsobovať nekonzistentnosť vášho modelu,“ vysvetľuje Xinyi Wu, doktorandka na MIT a hlavná autorka výskumu.
Tím vytvoril teoretický rámec založený na grafoch, aby analyzoval, ako informácie prechádzajú strojovým učením v architektúre LLM. Ich analýza ukázala, že určité rozhodnutia v návrhu – konkrétne kauzálne maskovanie a mechanizmy pozornosti – spôsobujú, že modely sú inherentne zaujaté smerom k začiatku vstupu, aj keď takáto zaujatost v trénovacích dátach neexistuje.
„Hoci často platí, že skoršie a neskoršie slová vo vete sú dôležitejšie, ak sa LLM používa na úlohy, ktoré nesúvisia s generovaním prirodzeného jazyka, ako je napríklad radenie alebo vyhľadávanie informácií, tieto zaujatosti môžu byť mimoriadne škodlivé,“ upozorňuje Wu.
Tento výskum dopĺňa ďalšie nedávne štúdie, ktoré ukazujú, že LLM obsahujú rôzne formy zaujatosti. Samostatná štúdia z Princetonskej univerzity zistila, že aj explicitne nezaujaté LLM stále vytvárajú implicitné zaujatosti podobné tým, aké majú ľudia, ktorí síce vedome odmietajú stereotypy, ale nevedome ich udržiavajú. Pomocou psychologicky inšpirovaných meraní výskumníci odhalili rozšírené stereotypné zaujatosti naprieč kategóriami rasy, pohlavia, náboženstva a zdravia v ôsmich modeloch orientovaných na hodnoty.
Zistenia MIT ponúkajú podľa profesora Amína Saberiho zo Stanfordu „zriedkavý teoretický pohľad na mechanizmus pozornosti v jadre transformer modelu“, ktorý poskytuje matematickú jasnosť aj praktické poznatky pre reálne systémy. Keďže sa LLM čoraz viac integrujú do kritických aplikácií, pochopenie a riešenie týchto inherentných zaujatostí bude kľúčové pre vývoj spravodlivých a spoľahlivých AI technológií.