MIT 研究揭示:大型语言模型为何偏好文档首尾信息
麻省理工学院(MIT)的研究人员发现,大型语言模型(LLMs)在处理文档或对话时存在“位置偏见”,即更倾向于重视开头和结尾的信息,而忽视中间的内容。这种现象在律师使用基于LLM的虚拟助手查找文件中的特定短语时表现尤为明显,模型更容易在初始或最后几页找到相关信息。 研究人员利用一个理论框架研究了信息如何在构成LLM的机器学习架构中流动,揭示了位置偏见产生的机制。实验结果显示,模型架构特别是影响输入词汇间信息传播的设计选择,以及训练数据本身,都可能导致或加重位置偏见。 研究方法与成果 该研究首先建立了一个基于图论的理论框架,以探索因果遮罩(causal masking)和位置编码(positional encodings)这两种建模选择如何影响位置偏见。在因果遮罩中,每个词只能关注其前面的词,这导致模型天然倾向处理顺序靠前的词汇。即使这些词汇对句子意义并不重要,模型仍然会更多地关注它们。随着模型层数的增加,这种偏见进一步放大,因为早期输入在模型的推理过程中被更频繁地使用。 相比之下,位置编码可以缓解位置偏见,但效果会因额外注意力层的存在而减弱。位置编码通过增强相邻词汇之间的联系,重新引导模型的注意力到适当的位置。 实验验证 为了验证这一理论框架,研究人员进行了系统性的实验,改变了正确答案在文本序列中的位置。他们发现了一个“中间丢失”现象,即检索准确性呈现U形模式:当正确答案位于序列开头时,模型表现最佳;接近中间时性能逐渐下降;接近结尾时又有所回升。 这项研究建议通过改变遮罩技术、减少注意力机制的层数或策略性地使用位置编码,可以有效降低位置偏见,提高模型的准确性。 未来方向 在未来的研究中,团队计划进一步探讨位置编码的效果,并研究如何在某些特定应用中利用位置偏见。这有助于开发更加可靠和公平的AI系统,例如保持长时间对话一致性的聊天机器人、处理大量患者数据的医疗AI系统,以及更精准的程序代码辅助工具。 行业评价 斯坦福大学计算市场设计中心的教授阿明·萨伯里(Amin Saberi)表示:“这些研究人员提供了对变压器模型核心机制的独特理论视角。他们的分析澄清了变压器行为中的长期谜团,展示了因果遮罩机制如何使模型倾向于处理序列靠前的部分。这篇论文在数学清晰度和实际应用洞察力之间取得了最佳平衡。” 公司背景 MIT是一所世界顶级的技术和工程研究型大学,其数据、系统和社会研究所(IDSS)以及信息和决策系统实验室(LIDS)在人工智能领域进行了广泛的研究。该研究部分资金来自美国海军研究办公室、国家科学基金会和亚历山大·von洪堡教授基金的支持。