HyperAI超神经

扩展测试时计算以适应LLM代理

King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
发布日期: 6/18/2025
扩展测试时计算以适应LLM代理
摘要

扩展测试时间计算在提高大型语言模型(LLMs)的推理能力方面取得了显著成功。在这项工作中,我们首次系统地探讨了将测试时间扩展方法应用于语言代理,并调查了其在多大程度上提高了这些代理的有效性。具体而言,我们研究了不同的测试时间扩展策略,包括:(1)并行采样算法;(2)顺序修订策略;(3)验证器和合并方法;(4)多样化 rollout 策略。我们仔细分析并评估了不同设计策略对语言代理应用测试时间扩展的影响,并得出了以下结论:1. 扩展测试时间计算可以提高代理的性能。2. 了解何时进行反思对于代理至关重要。3. 在不同的验证和结果合并方法中,列表式方法表现最佳。4. 增加多样化的 rollout 对代理的任务性能有积极影响。