Command Palette
Search for a command to run...

摘要
Transformer架构已在多个领域取得成功,涵盖自然语言处理、计算机视觉以及语音识别等。在关键词检测任务中,自注意力机制通常被置于卷积或循环编码器之上。本文系统研究了多种将Transformer架构适配至关键词检测的方法,并提出了一种全新的全自注意力架构——关键词Transformer(Keyword Transformer, KWT)。该模型在无需预训练或额外数据的情况下,便在多个任务上超越了当前最优性能。令人惊讶的是,这一简洁的架构在性能上优于那些融合了卷积、循环与注意力机制的复杂模型。KWT可作为现有模型的即插即用替代方案,在Google语音命令数据集上创造了两项新纪录:在12类和35类关键词检测任务中,准确率分别达到98.6%和97.7%。
代码仓库
aau-es-ml/ssl_noise-robust_kws
pytorch
GitHub 中提及
ID56/Torch-KWT
pytorch
GitHub 中提及
phanxuanphucnd/Arizona-spotting
GitHub 中提及
holgerbovbjerg/data2vec-kws
pytorch
GitHub 中提及
intelligentmachines/keyword_spotting_transformer
tf
GitHub 中提及
Arizona-Voice/Arizona-spotting
pytorch
GitHub 中提及
mashrurmorshed/torch-kwt
pytorch
GitHub 中提及
ARM-software/keyword-transformer
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| keyword-spotting-on-google-speech-commands | KWT-1 | Google Speech Commands V1 12: 97.26±0.18 Google Speech Commands V2 12: 98.08±0.10 Google Speech Commands V2 35: 96.95±0.14  | 
| keyword-spotting-on-google-speech-commands | KWT-2 | Google Speech Commands V1 12: 97.27 ±0.08 Google Speech Commands V2 12: 98.43±0.08 Google Speech Commands V2 35: 97.74 ±0.03  | 
| keyword-spotting-on-google-speech-commands | KWT-3 | Google Speech Commands V1 12: 97.49 ±0.15 Google Speech Commands V2 12: 98.56 ±0.07 Google Speech Commands V2 35: 97.69 ±0.09  |