6 个月前

多任务学习

自然语言处理

Zhengxiao Du Yujie Qian Xiao Liu Ming Ding Jiezhong Qiu Zhilin Yang Jie Tang

摘要

现有的预训练架构包括自编码模型（如BERT）、自回归模型（如GPT）以及编码器-解码器模型（如T5）。然而，现有的各类预训练框架在三大主要任务类别——自然语言理解（NLU）、无条件生成与条件生成——中均无法在所有任务上均表现最佳。为此，我们提出了一种基于自回归填空机制的通用语言模型（General Language Model, GLM），以应对这一挑战。GLM通过引入二维位置编码，并允许以任意顺序预测被掩码的文本片段，从而改进了传统的填空式预训练方法，在NLU任务上实现了对BERT和T5的性能超越。同时，GLM可通过调整掩码的数量与长度，灵活地适应不同类型的任务进行预训练。在涵盖NLU、条件生成与无条件生成的广泛任务上，给定相同模型规模与训练数据，GLM的表现优于BERT、T5和GPT；其在仅使用BERT Large模型1.25倍参数量的情况下，即实现了单一预训练模型在多种下游任务中的最优性能，充分体现了该模型在不同任务间的强泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

自然语言处理

Zhengxiao Du Yujie Qian Xiao Liu Ming Ding Jiezhong Qiu Zhilin Yang Jie Tang

摘要

现有的预训练架构包括自编码模型（如BERT）、自回归模型（如GPT）以及编码器-解码器模型（如T5）。然而，现有的各类预训练框架在三大主要任务类别——自然语言理解（NLU）、无条件生成与条件生成——中均无法在所有任务上均表现最佳。为此，我们提出了一种基于自回归填空机制的通用语言模型（General Language Model, GLM），以应对这一挑战。GLM通过引入二维位置编码，并允许以任意顺序预测被掩码的文本片段，从而改进了传统的填空式预训练方法，在NLU任务上实现了对BERT和T5的性能超越。同时，GLM可通过调整掩码的数量与长度，灵活地适应不同类型的任务进行预训练。在涵盖NLU、条件生成与无条件生成的广泛任务上，给定相同模型规模与训练数据，GLM的表现优于BERT、T5和GPT；其在仅使用BERT Large模型1.25倍参数量的情况下，即实现了单一预训练模型在多种下游任务中的最优性能，充分体现了该模型在不同任务间的强泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供