Дослідники Массачусетського технологічного інституту (MIT) зробили значний прорив у розумінні причин виникнення упередженості у великих мовних моделях (LLM), що може відкрити шлях до створення більш надійних AI-систем.
Команда з'ясувала, що LLM страждають на «позиційну упередженість» — схильність надмірно акцентувати увагу на інформації на початку та в кінці документів, ігноруючи зміст у середині. Це має практичні наслідки: наприклад, якщо юрист використовує асистента на базі LLM для пошуку у 30-сторінковому документі, система з більшою ймовірністю знайде релевантний текст, якщо він розташований на перших чи останніх сторінках.
Унікальність цього відкриття полягає в тому, що дослідники визначили корінь проблеми саме в архітектурі моделі. «Ці моделі — чорні скриньки, тому як користувач LLM ви, ймовірно, не знаєте, що позиційна упередженість може призвести до непослідовності у роботі моделі», — пояснює Сіньї Ву, аспірантка MIT та провідна авторка дослідження.
Команда побудувала теоретичну модель на основі графів, щоб проаналізувати, як інформація проходить крізь машинне навчання в LLM. Їхній аналіз показав, що певні архітектурні рішення — зокрема каузальне маскування та механізми уваги — закладають у моделі вроджену упередженість на користь початку вхідних даних, навіть якщо такої упередженості не було у тренувальних даних.
«Хоча часто справді початкові та кінцеві слова у реченні важливіші, якщо LLM застосовується для завдань, не пов'язаних із генерацією природної мови, наприклад, для ранжування чи пошуку інформації, ці упередженості можуть бути дуже шкідливими», — зазначає Ву.
Це дослідження доповнює інші нещодавні роботи, які показують, що LLM мають різні форми упередженості. Окреме дослідження Принстонського університету виявило, що навіть явно неупереджені LLM формують приховані упередження, подібні до людей, які свідомо відкидають стереотипи, але несвідомо їх підтримують. Використовуючи методи, натхненні психологією, дослідники виявили поширені стереотипні упередження за расовими, гендерними, релігійними та медичними ознаками у восьми моделях із вирівняними цінностями.
Відкриття MIT дає, за словами професора Стенфордського університету Аміна Сабері, «рідкісний теоретичний погляд на механізм уваги, що лежить в основі трансформерної моделі», забезпечуючи як математичну ясність, так і практичні інсайти для реальних систем. Оскільки LLM усе ширше інтегруються у критичні застосування, розуміння та подолання цих вроджених упередженостей буде ключовим для створення справедливих і надійних AI-технологій.