2 个月前

监督式微调

自然语言处理

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

摘要

尽管大型语言模型（LLM）在代码生成方面表现出色，多语言代码生成仍面临巨大挑战。为应对这一问题，我们旨在在仅使用有限计算资源的前提下，提升基础LLM在多编程语言（MultiPL）任务上的性能，同时保留当前最主流的模型架构。我们将多编程语言任务视为多种自然语言处理的特殊情形，并提出一种基于混合专家（MoE）架构的多编程语言扩展方法，称为MultiPL-MoE。具体而言，MultiPL-MoE通过结合两个配对的MoE模块，实现对专家选择在token级和段级的双重优化。其中，token级MoE采用标准的“再利用型”MoE结构，配备共享专家，并引入一种新颖的门控权重归一化方法，以促进与段级MoE的最终融合。段级MoE则包含两项创新设计，以更有效地捕捉编程语言的语法结构和上下文模式：其一，采用滑动窗口机制将输入的token序列划分为多个段；其二，引入专家选择路由策略，使每个专家能够自主选择top-k个最具代表性的段。实验结果验证了MultiPL-MoE的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

监督式微调

自然语言处理

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

摘要

尽管大型语言模型（LLM）在代码生成方面表现出色，多语言代码生成仍面临巨大挑战。为应对这一问题，我们旨在在仅使用有限计算资源的前提下，提升基础LLM在多编程语言（MultiPL）任务上的性能，同时保留当前最主流的模型架构。我们将多编程语言任务视为多种自然语言处理的特殊情形，并提出一种基于混合专家（MoE）架构的多编程语言扩展方法，称为MultiPL-MoE。具体而言，MultiPL-MoE通过结合两个配对的MoE模块，实现对专家选择在token级和段级的双重优化。其中，token级MoE采用标准的“再利用型”MoE结构，配备共享专家，并引入一种新颖的门控权重归一化方法，以促进与段级MoE的最终融合。段级MoE则包含两项创新设计，以更有效地捕捉编程语言的语法结构和上下文模式：其一，采用滑动窗口机制将输入的token序列划分为多个段；其二，引入专家选择路由策略，使每个专家能够自主选择top-k个最具代表性的段。实验结果验证了MultiPL-MoE的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供