Command Palette
Search for a command to run...

摘要
近年来,基于三元组损失(triplet loss)的度量嵌入(metric embeddings)已成为解决多个重要计算机视觉任务的行业标准,尤其在行人重识别(person reidentification)领域表现突出。然而,在语音识别领域,即使面对分类任务,基于三元组损失生成的度量嵌入也极少被采用。本文填补了这一空白,通过结合两种表示学习技术——使用基于三元组损失的嵌入,并以一种改进的kNN分类方法替代传统的交叉熵损失(cross-entropy loss),显著提升了卷积神经网络在基于LibriSpeech构建的LibriWords数据集上的分类准确率,提升幅度达26%至38%。为实现这一目标,我们提出了一种新型的基于音素相似性的三元组挖掘方法(phonetic similarity-based triplet mining approach)。实验结果表明,该方法在Google Speech Commands数据集V1的10+2类分类任务中,将当前最优公开结果(SOTA)提升了约34%,准确率达到了98.55%;在V2的10+2类分类任务中提升了约20%,准确率达到98.37%;在V2的35类分类任务中更是提升了超过50%,准确率达到了97.0%。这些成果验证了度量嵌入与kNN分类结合在语音分类任务中的强大潜力。
代码仓库
roman-vygon/triplet_loss_kws
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| keyword-spotting-on-google-speech-commands | TripletLoss-res15 | Google Speech Commands V1 12: 98.56 Google Speech Commands V2 12: 98.37 Google Speech Commands V2 35: 97.0  |