Command Palette
Search for a command to run...

摘要
作为语音识别技术的重要组成部分,自动语音关键词识别近年来受到了广泛研究。在基础设施有限和计算资源受限的情况下,例如车辆中的语音命令识别和机器人交互,这种技术尤为重要。目前,自动语音关键词识别的主要方法是基于带有注意力机制的长短时记忆(LSTM)网络。然而,由于特征提取过程中不可避免的信息损失,导致LSTM层计算出的注意力权重存在偏差。本文提出了一种新的方法——多层注意力机制,以解决注意力权重不准确的问题。其核心思想是在传统的注意力机制基础上,引入特征提取和LSTM之前的层的信息进行注意力权重的计算。因此,整体模型可以拥有更精确和集中的区域,从而使注意力权重更加准确。我们对卷积神经网络、双向LSTM循环神经网络以及带有所提出的注意力机制的循环神经网络在Google Speech Command数据集V2上的关键词检测性能进行了全面的比较和分析。实验结果表明该方法具有良好的效果,并验证了所提方法的有效性。所提出的多层注意力机制方法也可为其他相关对象检测研究提供参考。
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| keyword-spotting-on-google-speech-commands | LSTM | Google Speech Commands V2 20: 93.72  |