HyperAIHyperAI

Command Palette

Search for a command to run...

CDLM:跨文档语言模型

Avi Caciularu Arman Cohan Iz Beltagy Matthew E. Peters Arie Cattan Ido Dagan

摘要

我们介绍了一种新的预训练方法,专门用于多文档语言建模,该方法在掩码语言模型的自监督目标中融入了两个关键思想。首先,我们不再孤立地考虑单个文档,而是对多个相关文档的集合进行预训练,鼓励模型学习跨文档的关系。其次,我们在最近的长距离变换器基础上进行了改进,引入了动态全局注意力机制(dynamic global attention),该机制可以访问整个输入以预测被掩码的标记。我们发布了CDLM(Cross-Document Language Model),这是一种新的通用语言模型,适用于多文档场景,并且可以轻松应用于下游任务。我们的详细分析表明,这两个思想对于CDLM的成功至关重要,并且协同作用,在多个多文本任务上取得了新的最先进成果。代码和模型可在https://github.com/aviclu/CDLM 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供