menu
close

MIT odkrywa kluczowy mechanizm stojący za uprzedzeniami modeli językowych LLM

Naukowcy z MIT zidentyfikowali podstawową przyczynę tzw. biasu pozycyjnego w dużych modelach językowych (LLM) – zjawiska polegającego na nadmiernym uwzględnianiu informacji z początku i końca dokumentów przy jednoczesnym pomijaniu treści ze środka. Ich teoretyczne ramy pokazują, w jaki sposób konkretne decyzje projektowe w architekturze modelu, zwłaszcza maskowanie przyczynowe i mechanizmy uwagi, z natury generują to uprzedzenie, nawet jeśli nie występuje ono w danych treningowych. To przełomowe odkrycie dostarcza kluczowych wskazówek do tworzenia dokładniejszych i bardziej wiarygodnych systemów AI.
MIT odkrywa kluczowy mechanizm stojący za uprzedzeniami modeli językowych LLM

Naukowcy z MIT dokonali przełomowego odkrycia w zrozumieniu, dlaczego duże modele językowe (LLM) wykazują uprzedzenia, co może utorować drogę do bardziej wiarygodnych systemów sztucznej inteligencji.

Zespół badawczy odkrył, że LLM-y cierpią na tzw. bias pozycyjny – tendencję do nadmiernego uwzględniania informacji z początku i końca dokumentów przy jednoczesnym pomijaniu treści ze środka. Ma to praktyczne konsekwencje – na przykład, gdy prawnik korzysta z asystenta opartego na LLM do przeszukiwania 30-stronicowego dokumentu, system z większym prawdopodobieństwem odnajdzie istotny fragment, jeśli znajduje się on na pierwszych lub ostatnich stronach.

Przełomowość tego odkrycia polega na tym, że badacze zidentyfikowali źródło problemu w samej architekturze modelu. „Te modele to czarne skrzynki, więc jako użytkownik LLM prawdopodobnie nie wiesz, że bias pozycyjny może powodować niespójność działania twojego modelu” – wyjaśnia Xinyi Wu, doktorantka MIT i główna autorka badań.

Zespół opracował teoretyczne ramy oparte na grafach, by przeanalizować przepływ informacji przez architekturę uczenia maszynowego LLM-ów. Analiza wykazała, że pewne decyzje projektowe – w szczególności maskowanie przyczynowe i mechanizmy uwagi – nadają modelom wrodzone uprzedzenie wobec początku wejścia, nawet jeśli taki bias nie istnieje w danych treningowych.

„Chociaż często jest tak, że wcześniejsze i późniejsze słowa w zdaniu są ważniejsze, jeśli LLM jest wykorzystywany do zadań innych niż generowanie języka naturalnego, takich jak ranking czy wyszukiwanie informacji, te uprzedzenia mogą być bardzo szkodliwe” – zauważa Wu.

Badania te uzupełniają inne niedawne prace pokazujące, że LLM-y wykazują różne formy uprzedzeń. Oddzielne badanie z Uniwersytetu Princeton wykazało, że nawet jawnie nieuprzedzone LLM-y wciąż kształtują ukryte biasy podobne do tych, które występują u ludzi świadomie odrzucających stereotypy, lecz nieświadomie je utrwalających. Przy użyciu metod inspirowanych psychologią naukowcy wykryli powszechne stereotypowe uprzedzenia dotyczące rasy, płci, religii i zdrowia w ośmiu modelach dostosowanych do wartości.

Odkrycia MIT stanowią, jak określa to profesor Stanfordu Amin Saberi, „rzadką teoretyczną perspektywę na mechanizm uwagi będący sercem modelu transformer”, dostarczając zarówno matematycznej jasności, jak i praktycznych wskazówek dla rzeczywistych systemów. W miarę jak LLM-y są coraz szerzej wykorzystywane w kluczowych zastosowaniach, zrozumienie i eliminowanie tych wrodzonych uprzedzeń będzie niezbędne do tworzenia sprawiedliwych i wiarygodnych technologii AI.

Source:

Latest News