HyperAIHyperAI

Command Palette

Search for a command to run...

BP-Transformer:通过二元划分建模长程上下文

Zihao Ye Qipeng Guo Quan Gan Xipeng Qiu Zheng Zhang

摘要

Transformer模型在众多自然语言处理任务中取得了广泛成功。然而,自注意力机制固有的二次时间复杂度限制了其在长文本上的应用。本文提出了一种基于二分划分(Binary Partitioning, BP)的多尺度片段细粒度到粗粒度注意力机制,构建了BP-Transformer(简称BPT)。BPT的注意力连接数为O(knlog(n/k))O(k\cdot n\log (n/k))O(knlog(n/k)),其中kkk为控制注意力稀疏程度的超参数。该模型在计算复杂度与模型表达能力之间实现了良好平衡。在文本分类、机器翻译和语言建模等多个任务上的实验表明,BPT在处理长文本时显著优于以往的自注意力模型。相关代码、超参数设置以及用于稀疏注意力的CUDA内核均已开源,基于PyTorch实现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供