麻省理工学院的研究人员在理解大语言模型(LLM)为何存在偏置方面取得了重大突破,这有望为构建更可靠的人工智能系统铺平道路。
团队发现,LLM存在“位置偏置”现象,即模型在处理文档时,往往过度关注开头和结尾的信息,而忽略中间部分的内容。这一偏置在实际应用中影响显著。例如,当律师使用LLM驱动的助手检索一份30页的文件时,系统更有可能找到出现在首页或末页的相关文本。
此次发现的突破性在于,研究人员首次在模型架构内部找到了偏置的根源。“这些模型本质上是黑箱,作为LLM用户,你可能并不知道位置偏置会导致模型输出结果不一致。”该研究的第一作者、MIT研究生吴欣怡(Xinyi Wu)解释道。
研究团队构建了一个基于图的理论框架,分析信息在LLM机器学习架构中的流动方式。分析结果显示,诸如因果掩码和注意力机制等特定设计选择,会让模型对输入开头的信息产生固有偏置,即使训练数据本身并不存在这种偏置。
“虽然在自然语言生成任务中,句子的首尾词语往往更重要,但如果LLM被用于排序或信息检索等非自然语言生成任务,这些偏置可能极具危害性。”吴欣怡补充道。
该研究与近期其他揭示LLM多种偏置的工作互为补充。例如,普林斯顿大学的一项独立研究发现,即使明确去除偏见的LLM,依然会形成类似人类的隐性偏见——即便人类有意识地拒绝刻板印象,潜意识中仍会延续这些偏见。研究人员借助心理学启发的方法,在八个价值对齐模型中检测到种族、性别、宗教和健康等领域普遍存在刻板印象偏见。
MIT的这一发现为斯坦福大学教授Amin Saberi所称的“对变换器模型核心注意力机制的罕见理论视角”提供了支持,不仅带来了数学上的清晰解释,也为现实系统提供了实用洞见。随着LLM日益融入关键应用场景,理解并解决这些固有偏置,将成为开发公平、可靠AI技术的关键。