HyperAI超神经

OTC:通过强化学习实现最优工具调用

Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji
发布日期: 4/23/2025
摘要

工具集成推理(TIR)增强了大型语言模型(LLMs)调用外部工具(如搜索引擎和代码解释器)的能力,以解决仅靠语言推理无法处理的任务。虽然强化学习(RL)在通过优化最终答案的正确性来改进TIR方面显示出潜力,但现有方法往往忽视了与工具使用相关的效率和成本问题。这可能导致次优行为,包括过度调用工具从而增加计算和财务负担,或工具使用不足从而影响答案质量。在本研究中,我们提出了最优工具调用控制策略优化(OTC-PO),这是一个简单而有效的基于RL的框架,旨在鼓励模型以最少的工具调用生成准确的答案。我们的方法引入了一种结合正确性和工具效率考量的工具集成奖励机制,促进高工具生产率。我们在近端策略优化(PPO)和组相对偏好优化(GRPO)中实现了这一框架,分别得到了OTC-PPO和OTC-GRPO。实验结果显示,在Qwen-2.5和Qwen-Math模型上进行多个问答基准测试时,我们的方法将工具调用次数减少了高达73.1%,并将工具生产率提高了高达229.4%,同时保持了相当的答案准确性。据我们所知,这是首个明确优化TIR中工具使用效率的基于RL的框架。 注:原文中的“Qwen-2.5”和“Qwen-Math”是专有名词,在翻译时保留了原文名称。