menu
close

MIT odhalil klíčový mechanismus stojící za zaujatostí velkých jazykových modelů

Výzkumníci z MIT identifikovali základní příčinu poziční zaujatosti ve velkých jazykových modelech (LLM). Tento jev spočívá v tom, že modely přikládají přílišnou váhu informacím na začátku a konci dokumentů, zatímco střední část opomíjejí. Jejich teoretický rámec ukazuje, jak určité konstrukční prvky architektury modelu, zejména kauzální maskování a mechanismy pozornosti, tuto zaujatost vytvářejí i v případě, že v trénovacích datech není přítomna. Tento průlom poskytuje zásadní poznatky pro vývoj přesnějších a spolehlivějších AI systémů.
MIT odhalil klíčový mechanismus stojící za zaujatostí velkých jazykových modelů

Výzkumníci z Massachusettského technologického institutu (MIT) dosáhli významného průlomu v pochopení toho, proč velké jazykové modely (LLM) vykazují zaujatost, což může otevřít cestu ke spolehlivějším AI systémům.

Tým zjistil, že LLM trpí tzv. „poziční zaujatostí“ – tedy tendencí přikládat větší význam informacím na začátku a konci dokumentů, zatímco obsah uprostřed bývá opomíjen. Tato zaujatost má praktické důsledky – například když právník využívá asistenta poháněného LLM k prohledávání třicetistránkového dokumentu, systém s větší pravděpodobností najde relevantní text, pokud se nachází na prvních nebo posledních stránkách.

Průlomový je tento objev zejména proto, že výzkumníci odhalili příčinu přímo v architektuře modelu. „Tyto modely jsou černé skříňky, takže jako uživatel LLM pravděpodobně nevíte, že poziční zaujatost může způsobit nekonzistenci vašeho modelu,“ vysvětluje Xinyi Wu, doktorandka na MIT a hlavní autorka studie.

Tým vytvořil teoretický rámec založený na grafech, který analyzuje, jak informace proudí skrze strojově-učící architekturu LLM. Analýza odhalila, že určité konstrukční volby – konkrétně kauzální maskování a mechanismy pozornosti – způsobují, že modely mají vrozenou zaujatost směrem k začátku vstupu, a to i tehdy, když tato zaujatost v trénovacích datech neexistuje.

„Ačkoliv často platí, že dřívější a pozdější slova ve větě jsou důležitější, pokud je LLM využíván k úkolům, které nejsou generováním přirozeného jazyka, například k řazení nebo vyhledávání informací, tyto zaujatosti mohou být velmi škodlivé,“ upozorňuje Wu.

Tento výzkum doplňuje další nedávné studie, které ukazují, že LLM obsahují různé formy zaujatosti. Samostatná studie Princetonské univerzity zjistila, že i explicitně nezaujaté LLM si vytvářejí implicitní zaujatosti podobné těm, které mají lidé, kteří vědomě odmítají stereotypy, ale podvědomě je dále udržují. Pomocí psychologicky inspirovaných měření výzkumníci detekovali rozšířené stereotypní zaujatosti napříč kategoriemi jako rasa, pohlaví, náboženství a zdraví v osmi hodnotově sladěných modelech.

Zjištění MIT poskytují podle profesora Stanfordské univerzity Amina Saberiho „vzácný teoretický pohled na mechanismus pozornosti v jádru transformerového modelu“, který přináší jak matematické objasnění, tak praktické poznatky pro reálné systémy. S tím, jak se LLM stále více integrují do klíčových aplikací, bude pochopení a řešení těchto vrozených zaujatostí zásadní pro vývoj spravedlivých a spolehlivých AI technologií.

Source:

Latest News