HyperAI超神经

强化学习是否真的在基础模型之上提升了大语言模型的推理能力?

Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
发布日期: 4/24/2025
强化学习是否真的在基础模型之上提升了大语言模型的推理能力?
摘要

强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)最近在提升大型语言模型(LLMs)的推理能力方面取得了显著成功,特别是在数学和编程任务中。人们普遍认为,RLVR使LLMs能够持续自我改进,从而获得超越其基础模型的新推理能力。然而,在本研究中,我们通过测量具有较大k值的pass@k指标来对这一假设进行批判性重新审视,以探索不同模型家族和基准测试中的推理能力边界。令人惊讶的是,强化学习实际上并没有引发根本性的新推理模式。虽然通过RL训练的模型在较小的k值(例如k=1)时表现优于其基础模型,但在较大的k值下,基础模型可以达到与RL训练模型相当甚至更高的pass@k得分。这表明RL训练生成的推理路径已经包含在基础模型的采样分布中,意味着大多数在RL训练模型中表现出来的推理能力基础模型已经具备。进一步分析显示,RL训练通过偏向于更可能产生奖励的路径来提升性能,因此更有效地采样正确响应。但这也导致了与基础模型相比更狭窄的推理能力边界。类似的结果也在使用RLVR训练的视觉推理任务中观察到。此外,我们发现蒸馏(distillation)可以真正将新知识引入到模型中,这与RLVR不同。这些发现突显了RLVR在推进LLMs推理能力方面的关键局限性,并要求我们从根本上重新思考强化学习训练对推理型LLMs的影响以及寻找更好的范式。 项目页面:https://limit-of-RLVR.github.io