HyperAI超神经

苹果与香港大学联合推出了DiffuCoder，这是一款专为代码生成设计的70亿参数扩散模型。研究人员在1300亿个有效代码令牌上对该模型进行了训练，使其成为探索基于扩散的大规模语言模型行为及推进后训练方法的重要平台。传统自回归模型在代码生成时通常需要遵循严格的从左到右解码顺序，而DiffuCoder则通过扩散方法实现了更灵活的生成策略。该模型能够迭代地并行精炼整个代码序列，允许代码编写过程中进行全局规划。扩散模型在代码生成中具有显著优势，因为编程常常涉及反复的非顺序修改。但之前的研究表明，开源扩散模型在编码任务上的表现有限，现有的后训练努力虽有改进，但仍偏离了扩散模型的全局规划特性。为了克服这一挑战，DiffuCoder采用了一种四阶段训练管道，包括适应性预训练、中期训练、指令微调和后训练。具体来说，模型首先在RefineCode和Stackv2提供的4000亿个代码令牌上进行持续预训练，随后使用160亿个逐步退火的代码数据进行中期训练。接着，在436万个监督精细调样例上进行指令微调，最后借助Coupled-GRPO算法在21000个困难样本上进行强化学习后训练。每一步都旨在优化模型的整体性能。实验结果显示，经过四阶段训练的DiffuCoder达到了与Qwen2.5-Coder和OpenCoder相当的性能水平。然而，在指令微调后的表现方面，所有深度学习模型（dLLMs）相比其基础模型仅取得边际改善，而经过Coupled-GRPO训练的DiffuCoder则表现出显著的性能提升。研究表明，随着采样温度从0.2升至1.2，DiffuCoder的非自回归生成能力逐渐增强，减少了对严格从左到右生成的依赖，从而提高了代码生成的质量。此外，研究人员还介绍了局部和全局自回归性指标，这些指标用于测量生成过程中的左右顺序一致性。分析发现，扩散模型在条件生成时会表现出一种“熵汇”效应，导致强烈的因果偏见。但通过适当调整采样温度和强化学习方法，这些偏见可以得到有效缓解。 DiffuCoder的成功不仅证明了扩散模型在代码生成中的潜力，也为未来开发更高效、更强大的代码生成工具提供了新的思路。这项研究为社区深入了解扩散模型及其应用奠定了坚实的基础，特别是对于复杂推理和生成任务的应用。业内人士认为，DiffuCoder的发布标志着代码生成领域的一次重要突破，有望推动更多相关研究和技术进步。苹果公司作为全球领先的科技企业，此次推出DiffuCoder反映了其在人工智能领域的持续投入和研究实力。同时，香港大学的研究团队近年来在自然语言处理和机器学习领域也有诸多创新成果，与苹果的合作进一步证明了该校在这一领域的卓越贡献。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

苹果与港大联手推出DiffuCoder：专为代码生成设计的7B扩散模型

相关链接

Command Palette

苹果与港大联手推出DiffuCoder：专为代码生成设计的7B扩散模型

相关链接

Command Palette

苹果与港大联手推出DiffuCoder：专为代码生成设计的7B扩散模型

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟