NEMOTRON-CROSSTHINK:超越数学推理的自我学习扩展
Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
发布日期: 4/23/2025

摘要
大型语言模型(LLMs)展现了强大的推理能力,特别是在通过强化学习(RL)进行增强时。虽然先前的研究成功地将强化学习应用于数学推理——其中规则和正确性定义明确——但将这些方法推广到更广泛的推理领域仍然面临挑战,原因包括数据有限、缺乏可验证的奖励结构以及任务需求多样。在本研究中,我们提出了NEMOTRON-CROSSTHINK框架,该框架系统地将多领域语料库(包括合成和现实世界的问题-答案对)整合到强化学习训练中,以提升在多种推理任务上的泛化能力。 NEMOTRON-CROSSTHINK通过以下方式解决关键挑战:(1)整合来自STEM、人文科学、社会科学等不同领域的数据;(2)应用结构化模板(例如选择题和开放式问题)来控制答案空间的复杂度;(3)筛选可验证的答案;(4)优化数据融合策略,有效利用多源数据。我们的方法实现了可扩展且超越数学领域的可验证奖励模型,并在数学推理基准测试(MATH-500:+30.1%,AMC23:+27.5%)和非数学推理基准测试(MMLU-PRO:+12.8%,GPQA-DIAMOND:+11.3%,AGIEVAL:+15.1%,SUPERGPQA:+3.8%)上均表现出更高的准确性。此外,NEMOTRON-CROSSTHINK显著提升了响应效率——正确答案所需的标记数量减少了28%,这表明其推理更加集中且有效。通过NEMOTRON-CROSSTHINK,我们展示了在强化学习中整合多领域、多格式的数据能够使大型语言模型更加准确、高效和具有泛化能力。