AceReason-Nemotron 1.1:通过SFT和RL协同效应推进数学和代码推理
Zihan Liu, Zhuolin Yang, Yang Chen, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
发布日期: 6/18/2025

摘要
在这项工作中,我们研究了监督微调(SFT)和强化学习(RL)在开发强大推理模型方面的协同效应。首先,我们通过两种扩展策略来整理SFT训练数据:增加收集的提示数量和每个提示生成的响应数量。这两种方法都显著提高了推理性能,其中增加提示数量带来的改进更为明显。接下来,我们探讨了SFT和RL之间协同效应的以下几个问题:(i) 更强大的SFT模型是否在大规模RL训练后始终能带来更好的最终性能?(ii) 如何确定一个适当的采样温度以在给定的SFT初始化过程中有效平衡探索和利用?我们的研究结果表明,只要进行有效的RL训练,特别是当采样温度被精心选择以保持调整后的熵值约为0.3时,(i) 是成立的。这一设置能够在探索和利用之间取得良好的平衡。值得注意的是,在整个RL过程中,初始SFT模型之间的性能差距显著缩小。借助强大的SFT基础以及对SFT和RL之间协同作用的理解,我们的AceReason-Nemotron-1.1 7B模型在具有挑战性的数学和代码基准测试中显著优于AceReason-Nemotron-1.0,并且在基于Qwen2.5-7B的推理模型中达到了新的最先进水平,从而证明了我们后训练配方的有效性。我们已将该模型和数据发布在:https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B