Pesquisadores do MIT fizeram um avanço significativo ao entender por que grandes modelos de linguagem (LLMs) apresentam viés, potencialmente abrindo caminho para sistemas de IA mais confiáveis.
A equipe descobriu que os LLMs sofrem de "viés de posição", uma tendência a supervalorizar informações presentes no início e no fim dos documentos, enquanto negligenciam o conteúdo intermediário. Esse viés tem implicações práticas — por exemplo, quando um advogado utiliza um assistente baseado em LLM para buscar informações em um documento de 30 páginas, o sistema tem mais chances de encontrar textos relevantes se eles estiverem nas páginas iniciais ou finais.
O que torna essa descoberta inovadora é o fato de os pesquisadores terem identificado a causa raiz dentro da própria arquitetura do modelo. "Esses modelos são caixas-pretas, então, como usuário de um LLM, você provavelmente não sabe que o viés de posição pode fazer seu modelo ser inconsistente", explica Xinyi Wu, estudante de pós-graduação do MIT e autora principal da pesquisa.
A equipe construiu um arcabouço teórico baseado em grafos para analisar como a informação flui pela arquitetura de aprendizado de máquina dos LLMs. A análise revelou que certas escolhas de design — especificamente o mascaramento causal e os mecanismos de atenção — conferem aos modelos um viés inerente para o início de uma entrada, mesmo quando esse viés não está presente nos dados de treinamento.
"Embora muitas vezes seja verdade que palavras no início e no fim de uma frase são mais importantes, se um LLM é utilizado em tarefas que não envolvem geração de linguagem natural, como ranqueamento ou recuperação de informações, esses vieses podem ser extremamente prejudiciais", observa Wu.
Essa pesquisa complementa outros estudos recentes que mostram que LLMs abrigam diversas formas de viés. Um estudo separado da Universidade de Princeton revelou que mesmo LLMs explicitamente imparciais ainda formam vieses implícitos semelhantes aos de humanos que rejeitam conscientemente estereótipos, mas os perpetuam inconscientemente. Utilizando métricas inspiradas na psicologia, os pesquisadores detectaram vieses estereotipados generalizados relacionados a raça, gênero, religião e saúde em oito modelos alinhados a valores.
As descobertas do MIT oferecem o que o professor Amin Saberi, de Stanford, chama de "uma rara lente teórica sobre o mecanismo de atenção no coração do modelo transformer", proporcionando clareza matemática e insights práticos para sistemas do mundo real. À medida que os LLMs se tornam cada vez mais integrados a aplicações críticas, compreender e enfrentar esses vieses inerentes será essencial para o desenvolvimento de tecnologias de IA justas e confiáveis.