3 个月前

关键词Transformer：一种用于关键词检测的自注意力模型

Axel Berg Mark O&#39 Connor Miguel Tairum Cruz

摘要

Transformer架构已在多个领域取得成功，涵盖自然语言处理、计算机视觉以及语音识别等。在关键词检测任务中，自注意力机制通常被置于卷积或循环编码器之上。本文系统研究了多种将Transformer架构适配至关键词检测的方法，并提出了一种全新的全自注意力架构——关键词Transformer（Keyword Transformer, KWT）。该模型在无需预训练或额外数据的情况下，便在多个任务上超越了当前最优性能。令人惊讶的是，这一简洁的架构在性能上优于那些融合了卷积、循环与注意力机制的复杂模型。KWT可作为现有模型的即插即用替代方案，在Google语音命令数据集上创造了两项新纪录：在12类和35类关键词检测任务中，准确率分别达到98.6%和97.7%。

代码仓库

aau-es-ml/ssl_noise-robust_kws

pytorch

GitHub 中提及

ID56/Torch-KWT

pytorch

GitHub 中提及

KrishnaDN/Keyword-Transformer

phanxuanphucnd/Arizona-spotting

GitHub 中提及

holgerbovbjerg/data2vec-kws

pytorch

GitHub 中提及

intelligentmachines/keyword_spotting_transformer

GitHub 中提及

Arizona-Voice/Arizona-spotting

pytorch

GitHub 中提及

mashrurmorshed/torch-kwt

pytorch

GitHub 中提及

EscVM/EscVM_YT/blob/master/Notebooks/1%20-%20TF2.X%20DeepAI-Quickie/tf_2_keyword_transformer.ipynb

ARM-software/keyword-transformer

官方

GitHub 中提及

基准测试

基准	方法	指标
keyword-spotting-on-google-speech-commands	KWT-1	Google Speech Commands V1 12: 97.26±0.18 Google Speech Commands V2 12: 98.08±0.10 Google Speech Commands V2 35: 96.95±0.14
keyword-spotting-on-google-speech-commands	KWT-2	Google Speech Commands V1 12: 97.27 ±0.08 Google Speech Commands V2 12: 98.43±0.08 Google Speech Commands V2 35: 97.74 ±0.03
keyword-spotting-on-google-speech-commands	KWT-3	Google Speech Commands V1 12: 97.49 ±0.15 Google Speech Commands V2 12: 98.56 ±0.07 Google Speech Commands V2 35: 97.69 ±0.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

关键词Transformer：一种用于关键词检测的自注意力模型

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters