menu
close

MIT otkriva ključni mehanizam pristranosti u velikim jezičnim modelima

Istraživači s MIT-a identificirali su temeljni uzrok pozicijske pristranosti u velikim jezičnim modelima (LLM-ovima), fenomena u kojem modeli previše naglašavaju informacije na početku i kraju dokumenata, dok zanemaruju sredinu. Njihov teorijski okvir otkriva kako određeni dizajnerski izbori u arhitekturi modela, posebice uzročna maskiranja i mehanizmi pažnje, inherentno stvaraju ovu pristranost čak i kada ona ne postoji u podacima za treniranje. Ovo otkriće pruža ključne uvide za razvoj točnijih i pouzdanijih AI sustava.
MIT otkriva ključni mehanizam pristranosti u velikim jezičnim modelima

Istraživači s MIT-a postigli su značajan napredak u razumijevanju zašto veliki jezični modeli (LLM-ovi) pokazuju pristranost, što bi moglo otvoriti put pouzdanijim AI sustavima.

Tim je otkrio da LLM-ovi pate od "pozicijske pristranosti", odnosno sklonosti da previše naglašavaju informacije na početku i kraju dokumenata, dok zanemaruju sadržaj u sredini. Ova pristranost ima praktične posljedice—primjerice, kada odvjetnik koristi asistenta temeljenog na LLM-u za pretragu 30-straničnog dokumenta, sustav će vjerojatnije pronaći relevantan tekst ako se on nalazi na početnim ili završnim stranicama.

Ono što ovo otkriće čini revolucionarnim jest činjenica da su istraživači identificirali uzrok unutar same arhitekture modela. "Ovi modeli su crne kutije, pa kao korisnik LLM-a vjerojatno ne znate da pozicijska pristranost može uzrokovati nekonzistentnost vašeg modela", objašnjava Xinyi Wu, doktorandica na MIT-u i glavna autorica istraživanja.

Tim je izgradio teorijski okvir temeljen na grafovima kako bi analizirao protok informacija kroz arhitekturu strojnog učenja LLM-ova. Njihova analiza otkrila je da određeni dizajnerski izbori—posebno uzročno maskiranje i mehanizmi pažnje—daju modelima urođenu pristranost prema početku ulaznih podataka, čak i kada ta pristranost nije prisutna u podacima za treniranje.

"Iako je često istina da su ranije i kasnije riječi u rečenici važnije, ako se LLM koristi za zadatke koji nisu generiranje prirodnog jezika, poput rangiranja ili pretraživanja informacija, ove pristranosti mogu biti izuzetno štetne", napominje Wu.

Ovo istraživanje nadopunjuje druge nedavne studije koje pokazuju da LLM-ovi sadrže različite oblike pristranosti. U zasebnom istraživanju sa Sveučilišta Princeton utvrđeno je da čak i eksplicitno nepristrani LLM-ovi i dalje razvijaju implicitne pristranosti slične ljudima koji svjesno odbacuju stereotipe, ali ih nesvjesno perpetuiraju. Koristeći mjere inspirirane psihologijom, istraživači su otkrili raširene stereotipne pristranosti u kategorijama rase, spola, religije i zdravlja u osam modela usklađenih s vrijednostima.

Nalazi MIT-a nude ono što profesor sa Stanforda Amin Saberi naziva "rijetkim teorijskim uvidom u mehanizam pažnje koji je u središtu transformer modela", pružajući i matematičku jasnoću i praktične uvide u sustave iz stvarnog svijeta. Kako se LLM-ovi sve više integriraju u ključne primjene, razumijevanje i rješavanje ovih urođenih pristranosti bit će ključno za razvoj pravednih i pouzdanih AI tehnologija.

Source:

Latest News