Command Palette
Search for a command to run...

摘要
我们提出一种名为ImportantAug的新方法,通过在语音信号的非关键区域添加噪声,而避免在关键区域引入噪声,从而对语音分类与识别模型的训练数据进行增强。该方法中的“重要性”由一个数据增强代理(data augmentation agent)预测,该代理在训练过程中被优化,以在尽可能多地添加噪声的同时,最小化对识别性能的影响。我们在Google语音命令数据集第二版(GSC v2)上验证了该方法的有效性。在标准GSC测试集上,与传统噪声增强方法(即不考虑噪声添加位置有效性而随机添加噪声)相比,ImportantAug实现了23.3%的相对错误率降低;相较于未使用数据增强的基线模型,错误率降低达25.4%。此外,在两个额外添加了噪声的测试集上,ImportantAug的表现也优于传统噪声增强方法和基线模型。
代码仓库
tvanh512/importantAug
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keyword-spotting-on-google-speech-commands | ImportantAug | Google Speech Command-Musan: 86.7 Google Speech Commands V2 35: 95 |
| speech-recognition-on-google-speech-commands | ImportantAug | Error rate - SNR 0dB: 13.3 |