HyperAIHyperAI

Command Palette

Search for a command to run...

GLM:基于自回归空白填充的通用语言模型预训练

Zhengxiao Du Yujie Qian Xiao Liu Ming Ding Jiezhong Qiu Zhilin Yang Jie Tang

摘要

现有的预训练架构包括自编码模型(如BERT)、自回归模型(如GPT)以及编码器-解码器模型(如T5)。然而,现有的各类预训练框架在三大主要任务类别——自然语言理解(NLU)、无条件生成与条件生成——中均无法在所有任务上均表现最佳。为此,我们提出了一种基于自回归填空机制的通用语言模型(General Language Model, GLM),以应对这一挑战。GLM通过引入二维位置编码,并允许以任意顺序预测被掩码的文本片段,从而改进了传统的填空式预训练方法,在NLU任务上实现了对BERT和T5的性能超越。同时,GLM可通过调整掩码的数量与长度,灵活地适应不同类型的任务进行预训练。在涵盖NLU、条件生成与无条件生成的广泛任务上,给定相同模型规模与训练数据,GLM的表现优于BERT、T5和GPT;其在仅使用BERT Large模型1.25倍参数量的情况下,即实现了单一预训练模型在多种下游任务中的最优性能,充分体现了该模型在不同任务间的强泛化能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供