
摘要
大规模多模态推理模型虽已取得快速进展,但其进一步发展仍受限于两大关键挑战:缺乏开放、大规模、高质量的长链式思维(Chain-of-Thought, CoT)数据,以及后训练阶段强化学习(Reinforcement Learning, RL)算法的不稳定性。目前主流的RL微调框架——组相对策略优化(Group Relative Policy Optimization, GRPO),在奖励方差较低时容易出现梯度消失问题,导致优化信号减弱,影响模型收敛性。本工作作出三项主要贡献:(1)我们提出一种基于方差感知采样(Variance-Aware Sampling, VAS)的数据选择策略,该策略以方差促进评分(Variance Promotion Score, VPS)为指导,综合考虑结果方差与轨迹多样性,有效提升奖励方差,从而稳定策略优化过程;(2)我们发布了大规模、精心构建的数据资源,包含约160万条长CoT冷启动数据和约1.5万对RL问答对,这些数据在质量、难度与多样性方面均经过严格把控,并配套提供完整可复现的端到端训练代码库;(3)我们开源了一组多尺度的多模态推理模型,为社区建立了标准化的基准测试体系。在数学推理基准上的实验表明,所构建的数据集与提出的VAS策略均具有显著有效性。通过全面的消融实验与深入分析,进一步揭示了各组件的贡献机制。此外,我们从理论上证明了奖励方差对期望策略梯度模长存在下界,而VAS可作为实现这一理论保障的实用手段。相关代码、数据及模型检查点已公开,详见:https://github.com/LengSicong/MMR1。