Naukowcy z MIT dokonali przełomowego odkrycia w zrozumieniu, dlaczego duże modele językowe (LLM) wykazują uprzedzenia, co może utorować drogę do bardziej wiarygodnych systemów sztucznej inteligencji.
Zespół badawczy odkrył, że LLM-y cierpią na tzw. bias pozycyjny – tendencję do nadmiernego uwzględniania informacji z początku i końca dokumentów przy jednoczesnym pomijaniu treści ze środka. Ma to praktyczne konsekwencje – na przykład, gdy prawnik korzysta z asystenta opartego na LLM do przeszukiwania 30-stronicowego dokumentu, system z większym prawdopodobieństwem odnajdzie istotny fragment, jeśli znajduje się on na pierwszych lub ostatnich stronach.
Przełomowość tego odkrycia polega na tym, że badacze zidentyfikowali źródło problemu w samej architekturze modelu. „Te modele to czarne skrzynki, więc jako użytkownik LLM prawdopodobnie nie wiesz, że bias pozycyjny może powodować niespójność działania twojego modelu” – wyjaśnia Xinyi Wu, doktorantka MIT i główna autorka badań.
Zespół opracował teoretyczne ramy oparte na grafach, by przeanalizować przepływ informacji przez architekturę uczenia maszynowego LLM-ów. Analiza wykazała, że pewne decyzje projektowe – w szczególności maskowanie przyczynowe i mechanizmy uwagi – nadają modelom wrodzone uprzedzenie wobec początku wejścia, nawet jeśli taki bias nie istnieje w danych treningowych.
„Chociaż często jest tak, że wcześniejsze i późniejsze słowa w zdaniu są ważniejsze, jeśli LLM jest wykorzystywany do zadań innych niż generowanie języka naturalnego, takich jak ranking czy wyszukiwanie informacji, te uprzedzenia mogą być bardzo szkodliwe” – zauważa Wu.
Badania te uzupełniają inne niedawne prace pokazujące, że LLM-y wykazują różne formy uprzedzeń. Oddzielne badanie z Uniwersytetu Princeton wykazało, że nawet jawnie nieuprzedzone LLM-y wciąż kształtują ukryte biasy podobne do tych, które występują u ludzi świadomie odrzucających stereotypy, lecz nieświadomie je utrwalających. Przy użyciu metod inspirowanych psychologią naukowcy wykryli powszechne stereotypowe uprzedzenia dotyczące rasy, płci, religii i zdrowia w ośmiu modelach dostosowanych do wartości.
Odkrycia MIT stanowią, jak określa to profesor Stanfordu Amin Saberi, „rzadką teoretyczną perspektywę na mechanizm uwagi będący sercem modelu transformer”, dostarczając zarówno matematycznej jasności, jak i praktycznych wskazówek dla rzeczywistych systemów. W miarę jak LLM-y są coraz szerzej wykorzystywane w kluczowych zastosowaniach, zrozumienie i eliminowanie tych wrodzonych uprzedzeń będzie niezbędne do tworzenia sprawiedliwych i wiarygodnych technologii AI.