HyperAIHyperAI

Command Palette

Search for a command to run...

推理何时才重要?一项关于推理对模型性能贡献的受控研究

Nicolas Boizard Hippolyte Gisserot-Boukhlef Kevin El-Haddad Céline Hudelot Pierre Colombo

摘要

具备推理能力的大规模语言模型(LLMs)已在众多任务上取得了最先进的性能。尽管其在实践中表现出色,但推理能力在哪些任务上有效、模型规模达到何种程度时推理才真正发挥作用,以及相关的训练与推理成本等问题,仍缺乏深入探索。在本研究中,我们采用一种合成数据蒸馏框架,开展了一项大规模的监督式实验。我们在涵盖数学导向任务与通用任务的广泛场景下,对比了不同规模的指令微调(Instruction Fine-Tuning, IFT)模型与推理模型,评估了多项选择题与开放式问答两种格式的表现。分析结果表明,推理能力始终能持续提升模型性能,往往可达到甚至超越显著更大的IFT系统。值得注意的是,虽然在训练与推理成本方面,IFT模型仍保持帕累托最优,但随着模型规模的扩大,推理模型的价值日益凸显,能够在推理密集型任务和开放式任务上突破IFT模型的性能瓶颈。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供