HyperAI超神经
3 days ago

VL-Cogito:面向高级多模态推理的渐进式课程强化学习

Ruifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong
VL-Cogito:面向高级多模态推理的渐进式课程强化学习
摘要

强化学习已在提升大语言模型推理能力方面展现出显著成效。近期的研究工作逐步将这一范式拓展至多模态推理任务。由于多模态任务本身具有固有的复杂性与多样性,尤其是在语义内容和问题表述方面,现有模型在不同领域及难度层级上往往表现出性能不稳定的问题。为解决上述局限,我们提出了 VL-Cogito——一种基于新型多阶段渐进式课程强化学习(Progressive Curriculum Reinforcement Learning, PCuRL)框架训练的先进多模态推理模型。PCuRL 通过系统性地引导模型逐步完成难度递增的任务,显著提升了其在多样化多模态情境下的推理能力。该框架引入两项关键创新:(1)在线难度软加权机制,动态调整强化学习各训练阶段的难度;(2)动态长度奖励机制,促使模型根据任务复杂度自适应地调节推理路径的长度,从而在推理效率与正确性之间实现良好平衡。实验评估表明,VL-Cogito 在涵盖数学、科学、逻辑与通用理解等主流多模态基准测试中,持续达到或超越现有面向推理的模型性能,充分验证了本方法的有效性。