4 天前

MMR1:通过方差感知采样与开放资源增强多模态推理

Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
MMR1:通过方差感知采样与开放资源增强多模态推理
摘要

大规模多模态推理模型虽已取得快速进展,但其进一步发展仍受限于两大关键挑战:缺乏开放、大规模、高质量的长链式思维(Chain-of-Thought, CoT)数据,以及后训练阶段强化学习(Reinforcement Learning, RL)算法的不稳定性。目前主流的RL微调框架——组相对策略优化(Group Relative Policy Optimization, GRPO),在奖励方差较低时容易出现梯度消失问题,导致优化信号减弱,影响模型收敛性。本工作作出三项主要贡献:(1)我们提出一种基于方差感知采样(Variance-Aware Sampling, VAS)的数据选择策略,该策略以方差促进评分(Variance Promotion Score, VPS)为指导,综合考虑结果方差与轨迹多样性,有效提升奖励方差,从而稳定策略优化过程;(2)我们发布了大规模、精心构建的数据资源,包含约160万条长CoT冷启动数据和约1.5万对RL问答对,这些数据在质量、难度与多样性方面均经过严格把控,并配套提供完整可复现的端到端训练代码库;(3)我们开源了一组多尺度的多模态推理模型,为社区建立了标准化的基准测试体系。在数学推理基准上的实验表明,所构建的数据集与提出的VAS策略均具有显著有效性。通过全面的消融实验与深入分析,进一步揭示了各组件的贡献机制。此外,我们从理论上证明了奖励方差对期望策略梯度模长存在下界,而VAS可作为实现这一理论保障的实用手段。相关代码、数据及模型检查点已公开,详见:https://github.com/LengSicong/MMR1。