Investigadores do MIT fizeram um avanço significativo na compreensão das razões pelas quais os grandes modelos de linguagem (LLMs) apresentam viés, abrindo potencialmente caminho para sistemas de IA mais fiáveis.
A equipa descobriu que os LLMs sofrem de "viés de posição", uma tendência para dar demasiada importância à informação presente no início e no fim dos documentos, enquanto negligenciam o conteúdo intermédio. Este viés tem implicações práticas — por exemplo, quando um advogado utiliza um assistente baseado em LLM para pesquisar um documento de 30 páginas, o sistema tem maior probabilidade de encontrar texto relevante se este estiver nas páginas iniciais ou finais.
O que torna esta descoberta inovadora é o facto de os investigadores terem identificado a causa raiz na própria arquitetura do modelo. "Estes modelos são caixas negras, por isso, enquanto utilizador de um LLM, provavelmente não sabe que o viés de posição pode tornar o seu modelo inconsistente", explica Xinyi Wu, estudante de doutoramento no MIT e autora principal da investigação.
A equipa construiu um enquadramento teórico baseado em grafos para analisar como a informação flui através da arquitetura de aprendizagem automática dos LLMs. A sua análise revelou que certas escolhas de design — nomeadamente o mascaramento causal e os mecanismos de atenção — conferem aos modelos um viés inerente para o início do input, mesmo quando esse viés não existe nos dados de treino.
"Embora seja frequentemente verdade que as palavras iniciais e finais de uma frase são mais importantes, se um LLM for utilizado numa tarefa que não seja geração de linguagem natural, como ranking ou recuperação de informação, estes vieses podem ser extremamente prejudiciais", salienta Wu.
Esta investigação complementa outros estudos recentes que demonstram que os LLMs albergam várias formas de viés. Um estudo separado da Universidade de Princeton revelou que mesmo LLMs explicitamente imparciais acabam por formar vieses implícitos semelhantes aos de humanos que rejeitam conscientemente estereótipos, mas os perpetuam inconscientemente. Utilizando métricas inspiradas na psicologia, os investigadores detetaram vieses de estereótipo generalizados em categorias como raça, género, religião e saúde em oito modelos alinhados por valores.
As conclusões do MIT oferecem aquilo que o professor Amin Saberi, de Stanford, descreve como "uma rara lente teórica sobre o mecanismo de atenção no coração do modelo transformer", proporcionando tanto clareza matemática como perspetivas práticas para sistemas do mundo real. À medida que os LLMs se integram cada vez mais em aplicações críticas, compreender e enfrentar estes vieses inerentes será essencial para desenvolver tecnologias de IA justas e fiáveis.