menu
close

麻省理工学院揭示大模型位置偏置关键机制

麻省理工学院(MIT)研究人员首次揭示了大语言模型(LLM)中位置偏置的根本原因。该现象指模型在处理文档时,往往过度关注开头和结尾的信息,而忽视中间内容。研究团队提出的理论框架显示,模型架构中的因果掩码和注意力机制等设计选择,会在训练数据本身不存在偏置时,仍然导致模型固有的偏置。这一突破为开发更准确、可靠的人工智能系统提供了关键洞见。
麻省理工学院揭示大模型位置偏置关键机制

麻省理工学院的研究人员在理解大语言模型(LLM)为何存在偏置方面取得了重大突破,这有望为构建更可靠的人工智能系统铺平道路。

团队发现,LLM存在“位置偏置”现象,即模型在处理文档时,往往过度关注开头和结尾的信息,而忽略中间部分的内容。这一偏置在实际应用中影响显著。例如,当律师使用LLM驱动的助手检索一份30页的文件时,系统更有可能找到出现在首页或末页的相关文本。

此次发现的突破性在于,研究人员首次在模型架构内部找到了偏置的根源。“这些模型本质上是黑箱,作为LLM用户,你可能并不知道位置偏置会导致模型输出结果不一致。”该研究的第一作者、MIT研究生吴欣怡(Xinyi Wu)解释道。

研究团队构建了一个基于图的理论框架,分析信息在LLM机器学习架构中的流动方式。分析结果显示,诸如因果掩码和注意力机制等特定设计选择,会让模型对输入开头的信息产生固有偏置,即使训练数据本身并不存在这种偏置。

“虽然在自然语言生成任务中,句子的首尾词语往往更重要,但如果LLM被用于排序或信息检索等非自然语言生成任务,这些偏置可能极具危害性。”吴欣怡补充道。

该研究与近期其他揭示LLM多种偏置的工作互为补充。例如,普林斯顿大学的一项独立研究发现,即使明确去除偏见的LLM,依然会形成类似人类的隐性偏见——即便人类有意识地拒绝刻板印象,潜意识中仍会延续这些偏见。研究人员借助心理学启发的方法,在八个价值对齐模型中检测到种族、性别、宗教和健康等领域普遍存在刻板印象偏见。

MIT的这一发现为斯坦福大学教授Amin Saberi所称的“对变换器模型核心注意力机制的罕见理论视角”提供了支持,不仅带来了数学上的清晰解释,也为现实系统提供了实用洞见。随着LLM日益融入关键应用场景,理解并解决这些固有偏置,将成为开发公平、可靠AI技术的关键。

Source:

Latest News