Command Palette

Search for a command to run...

3 个月前

Cluster-Former:基于聚类的稀疏Transformer用于长程依赖编码

Cluster-Former:基于聚类的稀疏Transformer用于长程依赖编码

摘要

Transformer 已成为深度学习领域中无处不在的核心架构。其成功的关键要素之一是自注意力机制(self-attention mechanism),该机制能够对输入 token 实现全连接的上下文编码。然而,尽管在建模短序列方面表现优异,自注意力机制在处理具有极端长程依赖关系的输入时仍面临挑战,因为其计算复杂度随序列长度呈二次增长。因此,通常采用滑动窗口(sliding window)的方式将长序列分块,再由 Transformer 逐块进行编码。本文提出了一种名为 Cluster-Former 的新型基于聚类的稀疏 Transformer 模型,用于在分块序列之间实现跨块注意力计算。该框架的核心由两种独特的 Transformer 层构成:滑动窗口层(Sliding-Window Layer)与 Cluster-Former 层,二者协同迭代地编码局部序列信息与全局上下文。这种新设计使得模型能够在局部窗口之外实现更广泛的信息整合,尤其适用于依赖长程依赖关系的问答(Question Answering, QA)任务。实验结果表明,Cluster-Former 在多个主流 QA 基准测试中均取得了当前最优(state-of-the-art)的性能表现。

基准测试

基准方法指标
language-modelling-on-enwiki8Cluster-Former (#C=512)
Bit per Character (BPC): 1.22
open-domain-question-answering-on-searchqaCluster-Former (#C=512)
EM: 68.0
question-answering-on-natural-questions-longCluster-Former (#C=512)
F1: 76.5
question-answering-on-quasart-tCluster-Former (#C=512)
EM: 54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Cluster-Former:基于聚类的稀疏Transformer用于长程依赖编码 | 论文 | HyperAI超神经