menu
close

MIT виявив ключовий механізм упередженості LLM

Дослідники з MIT ідентифікували основну причину позиційної упередженості у великих мовних моделях (LLM) — явища, коли моделі надмірно акцентують увагу на початку та кінці документів, ігноруючи середину. Їхня теоретична модель показує, як певні архітектурні рішення, зокрема каузальне маскування та механізми уваги, призводять до цієї упередженості навіть за відсутності її у тренувальних даних. Це відкриття дає важливі інсайти для створення більш точних і надійних AI-систем.
MIT виявив ключовий механізм упередженості LLM

Дослідники Массачусетського технологічного інституту (MIT) зробили значний прорив у розумінні причин виникнення упередженості у великих мовних моделях (LLM), що може відкрити шлях до створення більш надійних AI-систем.

Команда з'ясувала, що LLM страждають на «позиційну упередженість» — схильність надмірно акцентувати увагу на інформації на початку та в кінці документів, ігноруючи зміст у середині. Це має практичні наслідки: наприклад, якщо юрист використовує асистента на базі LLM для пошуку у 30-сторінковому документі, система з більшою ймовірністю знайде релевантний текст, якщо він розташований на перших чи останніх сторінках.

Унікальність цього відкриття полягає в тому, що дослідники визначили корінь проблеми саме в архітектурі моделі. «Ці моделі — чорні скриньки, тому як користувач LLM ви, ймовірно, не знаєте, що позиційна упередженість може призвести до непослідовності у роботі моделі», — пояснює Сіньї Ву, аспірантка MIT та провідна авторка дослідження.

Команда побудувала теоретичну модель на основі графів, щоб проаналізувати, як інформація проходить крізь машинне навчання в LLM. Їхній аналіз показав, що певні архітектурні рішення — зокрема каузальне маскування та механізми уваги — закладають у моделі вроджену упередженість на користь початку вхідних даних, навіть якщо такої упередженості не було у тренувальних даних.

«Хоча часто справді початкові та кінцеві слова у реченні важливіші, якщо LLM застосовується для завдань, не пов'язаних із генерацією природної мови, наприклад, для ранжування чи пошуку інформації, ці упередженості можуть бути дуже шкідливими», — зазначає Ву.

Це дослідження доповнює інші нещодавні роботи, які показують, що LLM мають різні форми упередженості. Окреме дослідження Принстонського університету виявило, що навіть явно неупереджені LLM формують приховані упередження, подібні до людей, які свідомо відкидають стереотипи, але несвідомо їх підтримують. Використовуючи методи, натхненні психологією, дослідники виявили поширені стереотипні упередження за расовими, гендерними, релігійними та медичними ознаками у восьми моделях із вирівняними цінностями.

Відкриття MIT дає, за словами професора Стенфордського університету Аміна Сабері, «рідкісний теоретичний погляд на механізм уваги, що лежить в основі трансформерної моделі», забезпечуючи як математичну ясність, так і практичні інсайти для реальних систем. Оскільки LLM усе ширше інтегруються у критичні застосування, розуміння та подолання цих вроджених упередженостей буде ключовим для створення справедливих і надійних AI-технологій.

Source:

Latest News