ToolRL:奖励即是工具学习所需的一切
Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji
发布日期: 4/23/2025
摘要
当前的大语言模型(LLMs)通常会经过监督微调(Supervised Fine-tuning, SFT)以获得工具使用能力。然而,SFT在面对不熟悉或复杂的工具使用场景时难以泛化。近期强化学习(Reinforcement Learning, RL)领域的进展,尤其是类似R1的模型,已经展示了其在推理和泛化方面的能力。然而,工具使用的奖励设计面临独特的挑战:多个工具可能被调用,并且具有不同的参数,而粗粒度的奖励信号(如答案匹配)无法提供有效学习所需的细粒度反馈。在本研究中,我们首次全面探讨了在RL范式下针对工具选择和应用任务的奖励设计。我们系统地探索了多种奖励策略,并分析了它们的类型、规模、粒度和时间动态。基于这些见解,我们提出了一种专为工具使用任务设计的原则性奖励方案,并将其应用于使用组相对策略优化(Group Relative Policy Optimization, GRPO)训练LLMs的过程中。在多样化的基准测试中进行的经验评估表明,我们的方法能够实现稳健、可扩展且稳定的训练,相较于基础模型提升了17%,相较于SFT模型提升了15%。这些结果突显了精心设计的奖励方案在提升LLMs工具使用能力和泛化性能中的关键作用。所有代码均已发布,以促进未来的研究。 注:原文中的“R1-like models”和“Group Relative Policy Optimization (GRPO)”为不常见术语,在中文译文中保留了原文术语以确保信息完整。