Учёные из Массачусетского технологического института (MIT) совершили значимый прорыв в понимании причин возникновения предвзятости в больших языковых моделях (LLM), что может привести к созданию более надёжных систем искусственного интеллекта.
Команда обнаружила, что LLM подвержены так называемой «позиционной предвзятости» — склонности переоценивать информацию, находящуюся в начале и конце документов, при этом игнорируя содержимое в середине. Это имеет практические последствия: например, если юрист использует помощника на базе LLM для поиска по 30-страничному документу, система с большей вероятностью найдёт релевантный текст, если он расположен на первых или последних страницах.
Уникальность этого открытия заключается в том, что исследователи выявили коренную причину внутри самой архитектуры модели. «Эти модели — чёрные ящики, поэтому, как пользователь LLM, вы, скорее всего, не знаете, что позиционная предвзятость может привести к непоследовательности работы вашей модели», — объясняет Синьи Ву, аспирант MIT и ведущий автор исследования.
Команда разработала теоретическую модель на основе графов для анализа того, как информация проходит через архитектуру машинного обучения LLM. Их анализ показал, что определённые архитектурные решения — в частности, причинная маскировка и механизмы внимания — изначально формируют у моделей предвзятость к началу входных данных, даже если такой предвзятости нет в обучающей выборке.
«Хотя часто бывает так, что первые и последние слова в предложении действительно важнее, если LLM используется не для генерации естественного языка, а, например, для ранжирования или поиска информации, такие предвзятости могут быть крайне вредны», — отмечает Ву.
Это исследование дополняет другие недавние работы, показывающие, что LLM содержат различные формы предвзятости. В отдельном исследовании Принстонского университета было установлено, что даже явно непредвзятые LLM всё равно формируют неявные предубеждения, схожие с теми, которые проявляют люди, сознательно отвергающие стереотипы, но бессознательно их поддерживающие. Используя методы, вдохновлённые психологией, исследователи выявили распространённые стереотипные предвзятости по расовым, гендерным, религиозным и медицинским категориям в восьми моделях с выровненными ценностями.
Результаты MIT дают, по словам профессора Стэнфордского университета Амина Сабери, «редкую теоретическую перспективу на механизм внимания, лежащий в основе трансформерных моделей», обеспечивая как математическую ясность, так и практические инсайты для реальных систем. По мере того как LLM всё шире интегрируются в критически важные приложения, понимание и устранение этих внутренних предвзятостей становится необходимым условием для создания справедливых и надёжных технологий искусственного интеллекта.