HyperAI
Back to Headlines

Study Reveals Large Model Training Code Executor Limited by Model Capacity

4 days ago

近日,中国科学技术大学本科校友、哈佛大学博士生陈勇超及其团队,通过多步监督微调(SFT)和群体相对策略优化(GRPO)方法,以Qwen-3B/7B/14B模型为基础,在144个推理和规划任务上进行了训练。训练过程中,模型被允许自由地多次使用代码执行器来辅助推理。这些任务大多涉及符号计算,但模型需要自主学会何时采用文字推理,何时采用符号计算,以及如何协调两者。 陈勇超团队的研究表明,代码执行器的训练效果受限于基础模型的能力。例如,经过过多的文字推理训练后,模型的代码生成能力可能会下降。这种能力下降在Leetcode等特定代码基准测试中不易显现,因为它主要发生在将具体抽象问题转化为代码或符号计算的过程中。现实生活中许多问题也具有类似的复杂性,尽管它们含有符号计算的因素,但抽象成符号计算问题需要复杂的思考过程。 任务的多样性是另一个挑战。训练单一任务的代码执行系统相对简单,但在面对多种任务时,模型难以根据不同任务确定合适的策略,甚至有些任务的策略偏好完全相反。因此,单纯依赖强化学习在这种情况下效果不佳,这与数学或检索任务中使用强化学习的情况有所不同。陈勇超强调,在他们的任务设置中,SFT阶段的重要性尤为显著。 陈勇超认为,未来基于大型语言模型的智能系统将在许多任务中融入符号计算。“未来的模型不仅仅是从视觉语言到动作,而是从视觉语言到控制。”他表示,这种观点在机器人领域尤其受欢迎。这些系统将首先在虚拟世界中实现应用,如旅行规划、网页任务以及各种科学问题的求解。即使某些任务不需要符号计算,但仍需代码执行,例如生成图形进行可视化,这些场景同样迫切需要训练模型使用代码执行器。 在此前的工作中,陈勇超团队在ICRA 2024会议上发表了AutoTAMP,该论文利用预设框架和算法将大型语言模型与符号计算工具结合,解决了机器人领域的规划问题。在NAACL 2025会议上,他们发表了TravelPlanner,探讨了利用类似方法解决旅行规划问题的技术。虽然这些方法效果良好,但泛化能力有限。每种任务可能需要不同的算法和框架,为每种场景单独设计框架显得效率低下。当前大型语言模型的强泛化能力使得这一方向更加值得探索。 为了克服现有代码执行器的问题,陈勇超团队尝试了两种方法:一是训练一个辅助模型来指导主模型的生成,辅助模型体积较小且训练难度较低,可以探测当前主模型的最强能力;二是直接微调主模型,使其在文字推理和符号计算间自如切换,这种方法对基础模型的要求较高。 他们首先尝试了第一种方法,训练出了名为CodeSteer的模型。CodeSteer使得GPT-4o在8B模型的指导下,更有效地利用符号计算来解决多个推理和规划问题,甚至在某些任务上的表现优于o1和DeepSeek-R1。此次R1-Code-Interpreter工作中,他们采用了第二种方法,最终成果以《R1-Code-Interpreter:通过监督学习与强化学习训练大语言模型的代码推理能力》为题发表在预印网站arXiv上。 陈勇超指出,未来的大型语言模型在处理推理和规划任务时,应该能够在这三种方式之间自由选择和衔接:1)直接生成答案,通过文字推理或机器人中的视觉语言系统生成控制信号;2)调用外部工具;3)生成代码来创建合适的工具。他计划进一步探索将这三种模式结合的方法,并在具体的实际应用中验证其可行性。这一研究的成果有望在未来促进智能系统的广泛应用和发展。 参考资料: 1. https://arxiv.org/abs/2306.06531 2. https://aclanthology.org/2025.naacl-long.176/ 3. https://openreview.net/forum?id=5X5Z7Ffrjb 4. https://arxiv.org/abs/2502.04350 5. https://arxiv.org/abs/2505.21668

Related Links