语言模型中的学习适应性并行推理
Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
发布日期: 4/23/2025
摘要
推理阶段计算的扩展显著提升了语言模型的推理能力。然而,现有方法存在显著的局限性:串行推理链方法生成过长的输出,导致延迟增加和上下文窗口耗尽,而诸如自一致性(self-consistency)等并行方法则因协调不足而产生冗余计算,并且性能提升有限。为解决这些问题,我们提出了一种新颖的推理框架——自适应并行推理(Adaptive Parallel Reasoning, APR),该框架使语言模型能够端到端地协调串行和并行计算。APR通过使用spawn()和join()操作实现了自适应多线程推理,从而推广了现有的推理方法。我们的关键创新在于端到端强化学习策略,该策略优化了父线程和子线程的推理过程,以提高任务成功率,且无需预定义的推理结构。在Countdown推理任务上的实验展示了APR的重要优势:(1) 在相同上下文窗口内实现更高性能(4k上下文时为83.4%对60.0%);(2) 随着计算量增加表现出更优的可扩展性(20k总token时为80.1%对66.6%);(3) 在等效延迟下提升准确性(大约5,000毫秒时为75.2%对57.3%)。APR标志着向使语言模型通过自适应分配计算资源来自主优化其推理过程迈进了一步。