HyperAIHyperAI

Command Palette

Search for a command to run...

MultiPL-MoE:通过混合专家模型扩展大型语言模型的多编程语言能力

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

摘要

尽管大型语言模型(LLM)在代码生成方面表现出色,多语言代码生成仍面临巨大挑战。为应对这一问题,我们旨在在仅使用有限计算资源的前提下,提升基础LLM在多编程语言(MultiPL)任务上的性能,同时保留当前最主流的模型架构。我们将多编程语言任务视为多种自然语言处理的特殊情形,并提出一种基于混合专家(MoE)架构的多编程语言扩展方法,称为MultiPL-MoE。具体而言,MultiPL-MoE通过结合两个配对的MoE模块,实现对专家选择在token级和段级的双重优化。其中,token级MoE采用标准的“再利用型”MoE结构,配备共享专家,并引入一种新颖的门控权重归一化方法,以促进与段级MoE的最终融合。段级MoE则包含两项创新设计,以更有效地捕捉编程语言的语法结构和上下文模式:其一,采用滑动窗口机制将输入的token序列划分为多个段;其二,引入专家选择路由策略,使每个专家能够自主选择top-k个最具代表性的段。实验结果验证了MultiPL-MoE的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供