I ricercatori del MIT hanno compiuto un importante passo avanti nella comprensione delle ragioni per cui i large language model (LLM) manifestano bias, aprendo potenzialmente la strada a sistemi di intelligenza artificiale più affidabili.
Il team ha scoperto che i LLM soffrono di "bias di posizione", ovvero una tendenza a dare eccessiva importanza alle informazioni presenti all'inizio e alla fine dei documenti, trascurando invece i contenuti centrali. Questo bias ha implicazioni pratiche: ad esempio, quando un avvocato utilizza un assistente basato su LLM per cercare informazioni in un documento di 30 pagine, il sistema avrà maggiori probabilità di trovare testo rilevante se questo si trova nelle prime o nelle ultime pagine.
Ciò che rende questa scoperta rivoluzionaria è che i ricercatori hanno individuato la causa alla radice direttamente nell'architettura del modello. "Questi modelli sono delle black box, quindi come utente di un LLM probabilmente non sai che il bias di posizione può rendere il tuo modello incoerente", spiega Xinyi Wu, dottoranda al MIT e autrice principale della ricerca.
Il team ha sviluppato un quadro teorico basato su grafi per analizzare come l'informazione si propaga attraverso l'architettura di machine learning dei LLM. La loro analisi ha rivelato che alcune scelte progettuali—nello specifico il causal masking e i meccanismi di attenzione—conferiscono ai modelli un bias intrinseco verso l'inizio dell'input, anche quando questo bias non è presente nei dati di addestramento.
"Sebbene sia spesso vero che le parole all'inizio e alla fine di una frase siano più importanti, se un LLM viene utilizzato per compiti diversi dalla generazione di linguaggio naturale, come il ranking o il recupero di informazioni, questi bias possono essere estremamente dannosi", osserva Wu.
Questa ricerca si aggiunge ad altri recenti studi che dimostrano come i LLM presentino diverse forme di bias. Uno studio separato della Princeton University ha rilevato che anche i LLM esplicitamente privi di bias sviluppano comunque bias impliciti, simili a quelli degli esseri umani che, pur rifiutando consapevolmente gli stereotipi, li perpetuano inconsciamente. Utilizzando metriche ispirate alla psicologia, i ricercatori hanno individuato bias diffusi legati a razza, genere, religione e salute in otto modelli allineati ai valori.
I risultati del MIT offrono, secondo il professore di Stanford Amin Saberi, "una rara lente teorica sul meccanismo di attenzione al cuore del modello transformer", fornendo sia chiarezza matematica sia spunti pratici per i sistemi reali. Man mano che i LLM vengono integrati in applicazioni sempre più critiche, comprendere e affrontare questi bias intrinseci sarà essenziale per sviluppare tecnologie di intelligenza artificiale eque e affidabili.