Výzkumníci z Massachusettského technologického institutu (MIT) dosáhli významného průlomu v pochopení toho, proč velké jazykové modely (LLM) vykazují zaujatost, což může otevřít cestu ke spolehlivějším AI systémům.
Tým zjistil, že LLM trpí tzv. „poziční zaujatostí“ – tedy tendencí přikládat větší význam informacím na začátku a konci dokumentů, zatímco obsah uprostřed bývá opomíjen. Tato zaujatost má praktické důsledky – například když právník využívá asistenta poháněného LLM k prohledávání třicetistránkového dokumentu, systém s větší pravděpodobností najde relevantní text, pokud se nachází na prvních nebo posledních stránkách.
Průlomový je tento objev zejména proto, že výzkumníci odhalili příčinu přímo v architektuře modelu. „Tyto modely jsou černé skříňky, takže jako uživatel LLM pravděpodobně nevíte, že poziční zaujatost může způsobit nekonzistenci vašeho modelu,“ vysvětluje Xinyi Wu, doktorandka na MIT a hlavní autorka studie.
Tým vytvořil teoretický rámec založený na grafech, který analyzuje, jak informace proudí skrze strojově-učící architekturu LLM. Analýza odhalila, že určité konstrukční volby – konkrétně kauzální maskování a mechanismy pozornosti – způsobují, že modely mají vrozenou zaujatost směrem k začátku vstupu, a to i tehdy, když tato zaujatost v trénovacích datech neexistuje.
„Ačkoliv často platí, že dřívější a pozdější slova ve větě jsou důležitější, pokud je LLM využíván k úkolům, které nejsou generováním přirozeného jazyka, například k řazení nebo vyhledávání informací, tyto zaujatosti mohou být velmi škodlivé,“ upozorňuje Wu.
Tento výzkum doplňuje další nedávné studie, které ukazují, že LLM obsahují různé formy zaujatosti. Samostatná studie Princetonské univerzity zjistila, že i explicitně nezaujaté LLM si vytvářejí implicitní zaujatosti podobné těm, které mají lidé, kteří vědomě odmítají stereotypy, ale podvědomě je dále udržují. Pomocí psychologicky inspirovaných měření výzkumníci detekovali rozšířené stereotypní zaujatosti napříč kategoriemi jako rasa, pohlaví, náboženství a zdraví v osmi hodnotově sladěných modelech.
Zjištění MIT poskytují podle profesora Stanfordské univerzity Amina Saberiho „vzácný teoretický pohled na mechanismus pozornosti v jádru transformerového modelu“, který přináší jak matematické objasnění, tak praktické poznatky pro reálné systémy. S tím, jak se LLM stále více integrují do klíčových aplikací, bude pochopení a řešení těchto vrozených zaujatostí zásadní pro vývoj spravedlivých a spolehlivých AI technologií.