HyperAI超神经
Back to Headlines

半在线强化学习提升大型语言模型对齐效果:灵活同步方案带来高效训练与卓越性能

9 days ago

大型语言模型(LLM)通常需要一个额外的对齐阶段,以便更好地适应人类使用。这个过程中,强化学习扮演着重要角色,通过接收人类反馈或基于任务的正确性来优化模型决策。然而,在选择最优的训练方法时存在挑战,主要分为离线和在线两种方式。离线方法依赖预先生成的数据,无法在训练过程中实时调整;在线方法则能够实时更新,但消耗更多的计算资源。这两种方法都在处理验证和非验证任务方面面临着不同的挑战。 历史上,直接偏好优化(DPO)和组相对策略优化(GRPO)是常用的模型对齐工具。DPO是一种离线方法,利用偏好数据对模型进行优化,简单且数据效率高,但缺乏在线方法的灵活性。GRPO基于PPO算法,通过比较不同输出来计算相对优势,适合动态奖励系统,但其在线性质增加了计算负荷,实验更加复杂。 为了解决这些限制,Meta和纽约大学的研究团队提出了一种半在线训练方法。这种方法并不像完全在线方法那样在每个训练步骤都同步生成和训练组件,也不像离线方法那样完全不进行同步。通过调整同步频率,研究团队成功地减少了训练时间,同时保持了模型的高度适应性。这种模块化的设置使得研究者可以根据具体任务灵活选择DPO或GRPO,并结合任务特定的奖励模型。 研究人员使用Llama-3.1-8B-Instruct模型进行了训练,任务类型包括开放式的指令跟随和数学问题解决。对于非验证任务,用户提示从WildChat-1M数据集中抽取,并由Athene-RM-8B奖励模型进行评分。对于验证任务,则使用NuminaMath数据集和Math-Verify工具验证生成的答案是否符合预期输出。实验使用了32个NVIDIA H200 GPU进行训练和8个GPU进行推理,不同的设置对比了离线、半在线和在线同步间隔的效果。 实验结果显示,半在线方法在多种任务上均表现出色。在Math500基准上,离线DPO的准确率为53.7%,而半在线DPO(同步间隔s = 100)达到了58.9%。在线DPO和GRPO分别获得了58.7%和58.1%的准确率。在NuminaMath基准上,离线DPO的准确率为36.4%,半在线变体(同步间隔s = 10)提高到了39.4%。此外,当对非验证任务进行评估时,结合多种奖励类型训练的模型在AlpacaEval 2.0和Arena-Hard基准上表现更好,表明该方法具有广泛的适用性。 这项研究表明,大型语言模型的细调不仅限于严格的离线或在线设置。采用灵活的同步方案,Meta和纽约大学的研究团队显著提高了训练效率,同时保持甚至提升了模型性能。结果表明,恰当平衡奖励类型和训练同步频率可以有效地使模型在不同任务类型中都表现良好,而不必承担过高的计算成本。

Related Links