MIT раскрывает ключевой механизм возникновения предвзятости в больших языковых моделях

Исследователи из MIT выявили основную причину позиционной предвзятости в больших языковых моделях (LLM) — явления, при котором модели переоценивают информацию в начале и конце документов, игнорируя середину. Их теоретическая модель показывает, что определённые архитектурные решения, в частности причинная маскировка и механизмы внимания, изначально создают эту предвзятость, даже если она отсутствует в обучающих данных. Это открытие даёт важные знания для создания более точных и надёжных ИИ-систем.

Учёные из Массачусетского технологического института (MIT) совершили значимый прорыв в понимании причин возникновения предвзятости в больших языковых моделях (LLM), что может привести к созданию более надёжных систем искусственного интеллекта.

Команда обнаружила, что LLM подвержены так называемой «позиционной предвзятости» — склонности переоценивать информацию, находящуюся в начале и конце документов, при этом игнорируя содержимое в середине. Это имеет практические последствия: например, если юрист использует помощника на базе LLM для поиска по 30-страничному документу, система с большей вероятностью найдёт релевантный текст, если он расположен на первых или последних страницах.

Уникальность этого открытия заключается в том, что исследователи выявили коренную причину внутри самой архитектуры модели. «Эти модели — чёрные ящики, поэтому, как пользователь LLM, вы, скорее всего, не знаете, что позиционная предвзятость может привести к непоследовательности работы вашей модели», — объясняет Синьи Ву, аспирант MIT и ведущий автор исследования.

Команда разработала теоретическую модель на основе графов для анализа того, как информация проходит через архитектуру машинного обучения LLM. Их анализ показал, что определённые архитектурные решения — в частности, причинная маскировка и механизмы внимания — изначально формируют у моделей предвзятость к началу входных данных, даже если такой предвзятости нет в обучающей выборке.

«Хотя часто бывает так, что первые и последние слова в предложении действительно важнее, если LLM используется не для генерации естественного языка, а, например, для ранжирования или поиска информации, такие предвзятости могут быть крайне вредны», — отмечает Ву.

Это исследование дополняет другие недавние работы, показывающие, что LLM содержат различные формы предвзятости. В отдельном исследовании Принстонского университета было установлено, что даже явно непредвзятые LLM всё равно формируют неявные предубеждения, схожие с теми, которые проявляют люди, сознательно отвергающие стереотипы, но бессознательно их поддерживающие. Используя методы, вдохновлённые психологией, исследователи выявили распространённые стереотипные предвзятости по расовым, гендерным, религиозным и медицинским категориям в восьми моделях с выровненными ценностями.

Результаты MIT дают, по словам профессора Стэнфордского университета Амина Сабери, «редкую теоретическую перспективу на механизм внимания, лежащий в основе трансформерных моделей», обеспечивая как математическую ясность, так и практические инсайты для реальных систем. По мере того как LLM всё шире интегрируются в критически важные приложения, понимание и устранение этих внутренних предвзятостей становится необходимым условием для создания справедливых и надёжных технологий искусственного интеллекта.

Source:

MIT раскрывает ключевой механизм возникновения предвзятости в больших языковых моделях

Latest News

MIT внедряет социально-ориентированные платформы обучения с ИИ

Прорывная роботизированная кожа придаёт машинам человеческое осязание

Meta выпускает LLaMA 4: революция голосовых возможностей ИИ

Home Depot оцифровывает экспертные советы с помощью ИИ-платформы Magic Apron

Shield AI привлекла $240 млн на фоне бума оборонных технологий

Препарат Rentosertib, разработанный с помощью ИИ, показал перспективные результаты в ключевом клиническом исследовании

Технологические гиганты представили усовершенствованные функции корпоративных AI-чатботов

Прорыв в области ИИ в Швейцарии резко снижает выбросы углерода при производстве цемента

OpenAI достигла отметки в $10 млрд выручки на фоне ускоряющегося внедрения ИИ

Gemini 2.5 Flash от Google приносит улучшенные возможности программирования

MIT раскрывает ключевой механизм возникновения предвзятости в больших языковых моделях

Related Articles

Meta выпускает LLaMA 4: революция голосовых возможностей ИИ

Гендерный разрыв в использовании ИИ женщинами угрожает равенству на рабочем месте

Глобальная этическая структура для ИИ в здравоохранении представлена

Глобальная коалиция представила историческую этическую структуру для ИИ общего назначения

OpenAI пресекла 10 кампаний по злоупотреблению ИИ, поддерживаемых государствами

Latest News

MIT внедряет социально-ориентированные платформы обучения с ИИ

Прорывная роботизированная кожа придаёт машинам человеческое осязание

Meta выпускает LLaMA 4: революция голосовых возможностей ИИ

Home Depot оцифровывает экспертные советы с помощью ИИ-платформы Magic Apron

Shield AI привлекла $240 млн на фоне бума оборонных технологий

Препарат Rentosertib, разработанный с помощью ИИ, показал перспективные результаты в ключевом клиническом исследовании

Технологические гиганты представили усовершенствованные функции корпоративных AI-чатботов

Прорыв в области ИИ в Швейцарии резко снижает выбросы углерода при производстве цемента

OpenAI достигла отметки в $10 млрд выручки на фоне ускоряющегося внедрения ИИ

Gemini 2.5 Flash от Google приносит улучшенные возможности программирования