Command Palette

Search for a command to run...

3 个月前

基于三元组损失的关键词识别高效表示学习

基于三元组损失的关键词识别高效表示学习

摘要

近年来,基于三元组损失(triplet loss)的度量嵌入(metric embeddings)已成为解决多个重要计算机视觉任务的行业标准,尤其在行人重识别(person reidentification)领域表现突出。然而,在语音识别领域,即使面对分类任务,基于三元组损失生成的度量嵌入也极少被采用。本文填补了这一空白,通过结合两种表示学习技术——使用基于三元组损失的嵌入,并以一种改进的kNN分类方法替代传统的交叉熵损失(cross-entropy loss),显著提升了卷积神经网络在基于LibriSpeech构建的LibriWords数据集上的分类准确率,提升幅度达26%至38%。为实现这一目标,我们提出了一种新型的基于音素相似性的三元组挖掘方法(phonetic similarity-based triplet mining approach)。实验结果表明,该方法在Google Speech Commands数据集V1的10+2类分类任务中,将当前最优公开结果(SOTA)提升了约34%,准确率达到了98.55%;在V2的10+2类分类任务中提升了约20%,准确率达到98.37%;在V2的35类分类任务中更是提升了超过50%,准确率达到了97.0%。这些成果验证了度量嵌入与kNN分类结合在语音分类任务中的强大潜力。

代码仓库

roman-vygon/triplet_loss_kws
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
keyword-spotting-on-google-speech-commandsTripletLoss-res15
Google Speech Commands V1 12: 98.56
Google Speech Commands V2 12: 98.37
Google Speech Commands V2 35: 97.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供