HyperAI超神经

近日，中国科学技术大学本科校友、哈佛大学博士生陈勇超及其团队，通过多步监督微调（SFT）和群体相对策略优化（GRPO）方法，以Qwen-3B/7B/14B模型为基础，在144个推理和规划任务上进行了训练。训练过程中，模型被允许自由地多次使用代码执行器来辅助推理。这些任务大多涉及符号计算，但模型需要自主学会何时采用文字推理，何时采用符号计算，以及如何协调两者。陈勇超团队的研究表明，代码执行器的训练效果受限于基础模型的能力。例如，经过过多的文字推理训练后，模型的代码生成能力可能会下降。这种能力下降在Leetcode等特定代码基准测试中不易显现，因为它主要发生在将具体抽象问题转化为代码或符号计算的过程中。现实生活中许多问题也具有类似的复杂性，尽管它们含有符号计算的因素，但抽象成符号计算问题需要复杂的思考过程。任务的多样性是另一个挑战。训练单一任务的代码执行系统相对简单，但在面对多种任务时，模型难以根据不同任务确定合适的策略，甚至有些任务的策略偏好完全相反。因此，单纯依赖强化学习在这种情况下效果不佳，这与数学或检索任务中使用强化学习的情况有所不同。陈勇超强调，在他们的任务设置中，SFT阶段的重要性尤为显著。陈勇超认为，未来基于大型语言模型的智能系统将在许多任务中融入符号计算。“未来的模型不仅仅是从视觉语言到动作，而是从视觉语言到控制。”他表示，这种观点在机器人领域尤其受欢迎。这些系统将首先在虚拟世界中实现应用，如旅行规划、网页任务以及各种科学问题的求解。即使某些任务不需要符号计算，但仍需代码执行，例如生成图形进行可视化，这些场景同样迫切需要训练模型使用代码执行器。在此前的工作中，陈勇超团队在ICRA 2024会议上发表了AutoTAMP，该论文利用预设框架和算法将大型语言模型与符号计算工具结合，解决了机器人领域的规划问题。在NAACL 2025会议上，他们发表了TravelPlanner，探讨了利用类似方法解决旅行规划问题的技术。虽然这些方法效果良好，但泛化能力有限。每种任务可能需要不同的算法和框架，为每种场景单独设计框架显得效率低下。当前大型语言模型的强泛化能力使得这一方向更加值得探索。为了克服现有代码执行器的问题，陈勇超团队尝试了两种方法：一是训练一个辅助模型来指导主模型的生成，辅助模型体积较小且训练难度较低，可以探测当前主模型的最强能力；二是直接微调主模型，使其在文字推理和符号计算间自如切换，这种方法对基础模型的要求较高。他们首先尝试了第一种方法，训练出了名为CodeSteer的模型。CodeSteer使得GPT-4o在8B模型的指导下，更有效地利用符号计算来解决多个推理和规划问题，甚至在某些任务上的表现优于o1和DeepSeek-R1。此次R1-Code-Interpreter工作中，他们采用了第二种方法，最终成果以《R1-Code-Interpreter：通过监督学习与强化学习训练大语言模型的代码推理能力》为题发表在预印网站arXiv上。陈勇超指出，未来的大型语言模型在处理推理和规划任务时，应该能够在这三种方式之间自由选择和衔接：1）直接生成答案，通过文字推理或机器人中的视觉语言系统生成控制信号；2）调用外部工具；3）生成代码来创建合适的工具。他计划进一步探索将这三种模式结合的方法，并在具体的实际应用中验证其可行性。这一研究的成果有望在未来促进智能系统的广泛应用和发展。参考资料： 1. https://arxiv.org/abs/2306.06531 2. https://aclanthology.org/2025.naacl-long.176/ 3. https://openreview.net/forum?id=5X5Z7Ffrjb 4. https://arxiv.org/abs/2502.04350 5. https://arxiv.org/abs/2505.21668

Study Reveals Large Model Training Code Executor Limited by Model Capacity

Related Links