Investigadores del MIT han logrado un avance significativo en la comprensión de por qué los grandes modelos de lenguaje (LLM) presentan sesgos, lo que podría allanar el camino hacia sistemas de IA más confiables.
El equipo descubrió que los LLM sufren de "sesgo de posición", una tendencia a sobrevalorar la información al principio y al final de los documentos, mientras descuidan el contenido del medio. Este sesgo tiene implicaciones prácticas; por ejemplo, cuando un abogado utiliza un asistente impulsado por LLM para buscar información en un documento de 30 páginas, el sistema tiene más probabilidades de encontrar texto relevante si aparece en las páginas iniciales o finales.
Lo que hace que este hallazgo sea innovador es que los investigadores identificaron la causa raíz dentro de la propia arquitectura del modelo. "Estos modelos son cajas negras, así que como usuario de un LLM, probablemente no sabes que el sesgo de posición puede hacer que tu modelo sea inconsistente", explica Xinyi Wu, estudiante de posgrado en el MIT y autora principal de la investigación.
El equipo construyó un marco teórico basado en grafos para analizar cómo fluye la información a través de la arquitectura de aprendizaje automático de los LLM. Su análisis reveló que ciertas decisiones de diseño—específicamente el enmascaramiento causal y los mecanismos de atención—otorgan a los modelos un sesgo inherente hacia el inicio de una entrada, incluso cuando ese sesgo no existe en los datos de entrenamiento.
"Si bien a menudo es cierto que las palabras iniciales y finales de una oración son más importantes, si un LLM se utiliza en una tarea que no es generación de lenguaje natural, como ranking o recuperación de información, estos sesgos pueden ser extremadamente perjudiciales", señala Wu.
Esta investigación complementa otros estudios recientes que muestran que los LLM albergan diversas formas de sesgo. Un estudio independiente de la Universidad de Princeton encontró que incluso los LLM explícitamente imparciales aún forman sesgos implícitos similares a los de los humanos que conscientemente rechazan los estereotipos, pero inconscientemente los perpetúan. Utilizando medidas inspiradas en la psicología, los investigadores detectaron sesgos de estereotipo generalizados en categorías de raza, género, religión y salud en ocho modelos alineados con valores.
Los hallazgos del MIT ofrecen lo que el profesor de Stanford, Amin Saberi, llama "una rara perspectiva teórica sobre el mecanismo de atención en el corazón del modelo transformer", proporcionando tanto claridad matemática como información práctica para sistemas del mundo real. A medida que los LLM se integran cada vez más en aplicaciones críticas, comprender y abordar estos sesgos inherentes será esencial para desarrollar tecnologías de IA justas y confiables.