Изследователи от MIT постигнаха значителен пробив в разбирането защо големите езикови модели (LLMs) проявяват пристрастия, което може да проправи пътя към по-надеждни AI системи.
Екипът откри, че LLMs страдат от "позиционно пристрастие" – склонност да се отдава прекалено голямо значение на информацията в началото и края на документите, докато съдържанието в средата често се пренебрегва. Това пристрастие има практически последици – например, когато адвокат използва асистент, задвижван от LLM, за търсене в 30-страничен документ, системата е по-вероятно да открие релевантен текст, ако той се намира в първите или последните страници.
Откритието е революционно, тъй като изследователите идентифицират корена на проблема в самата архитектура на модела. „Тези модели са черни кутии, така че като потребител на LLM вероятно не знаете, че позиционното пристрастие може да направи модела ви непоследователен“, обяснява Синъи У, докторант в MIT и водещ автор на изследването.
Екипът изгражда теоретична рамка, базирана на графи, за да анализира как информацията преминава през архитектурата на машинното обучение в LLMs. Анализът им показва, че определени дизайнерски решения – по-специално каузалното маскиране и механизмите за внимание – придават на моделите вродено пристрастие към началото на входа, дори когато такова пристрастие липсва в обучаващите данни.
„Вярно е, че често първите и последните думи в изречение са по-важни, но ако LLM се използва за задача, която не е генериране на естествен език – като класиране или извличане на информация – тези пристрастия могат да бъдат изключително вредни“, отбелязва У.
Това изследване допълва други скорошни проучвания, които показват, че LLMs съдържат различни форми на пристрастия. Отделно изследване на Принстънския университет установява, че дори явно непредубедени LLMs все пак формират имплицитни пристрастия, подобни на хора, които съзнателно отхвърлят стереотипи, но несъзнателно ги възпроизвеждат. С помощта на психология-вдъхновени измервания, изследователите откриват широко разпространени стереотипни пристрастия по расови, полови, религиозни и здравни категории в осем модела с изравнени ценности.
Откритията на MIT предоставят това, което професорът от Станфорд Амин Сабери нарича „рядка теоретична перспектива към механизма за внимание в сърцето на трансформър модела“, осигурявайки както математическа яснота, така и практически прозрения за реални системи. С нарастващата интеграция на LLMs в критични приложения, разбирането и адресирането на тези вградени пристрастия ще бъде от съществено значение за развитието на справедливи и надеждни AI технологии.