HyperAI超神经

学习在非策略指导下进行推理

Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
发布日期: 4/23/2025
摘要

大型推理模型 (LRM) 的最新进展表明,诸如多步推理和自我反思等复杂行为可以通过基于简单规则的奖励强化学习 (RL) 实现。然而,现有的零强化学习 (Zero-RL) 方法本质上是“在策略 (on-policy)”的,将学习限制在模型自身的输出上,无法获得超越其初始能力的推理能力。我们推出了 LUFFY(在策略指导下学习推理),这是一个通过离策略推理轨迹增强零强化学习的框架。LUFFY 通过在训练过程中结合离策略演示和在策略部署来动态平衡模仿和探索。值得一提的是,我们提出通过正则化重要性抽样进行策略塑造,以避免在混合策略训练过程中进行肤浅而僵化的模仿。值得注意的是,LUFFY 在六个数学基准测试中实现了超过 +7.0 的平均增益,并在分布外任务中实现了超过 +6.2 的优势。它还显著超越了基于模仿的监督微调 (SFT),尤其是在泛化方面。分析表明,LUFFY 不仅能够有效地模仿,还能进行超越演示的探索,从而为训练具有离策略指导的泛化推理模型提供了一条可扩展的途径。