Command Palette

Search for a command to run...

3 个月前

用于高效关键词检测的广播残差学习

用于高效关键词检测的广播残差学习

摘要

关键词识别(Keyword Spotting)是一个重要的研究领域,因其在智能设备的唤醒机制与用户交互中发挥着关键作用。然而,在资源受限的设备(如智能手机)上实现高效运行的同时最大限度地降低误识率,仍面临巨大挑战。为此,本文提出一种广播式残差学习方法,可在保持极小模型规模和低计算负载的前提下实现高精度识别。该方法将大部分残差函数设计为一维时间卷积,同时通过一种广播式残差连接(broadcasted-residual connection),将时间维度的输出扩展至频时维度,从而支持二维卷积的融合使用。这种残差映射机制使网络能够以远低于传统卷积神经网络的计算开销,有效捕捉关键音频特征。此外,本文提出一种新型网络架构——广播式残差网络(Broadcasting-Residual Network, BC-ResNet),基于上述广播式残差学习思想,并阐述了如何根据目标设备的资源情况对模型进行灵活扩展。实验结果表明,BC-ResNet在Google语音命令数据集v1和v2上分别取得了98.0%和98.7%的Top-1准确率,达到当前最优水平,且在计算量和参数量显著减少的前提下,持续优于以往方法。相关代码已开源,地址为:https://github.com/Qualcomm-AI-research/bcresnet。

代码仓库

基准测试

基准方法指标
keyword-spotting-on-google-speech-commandsBC-ResNet-8
Google Speech Commands V1 12: 98.0
Google Speech Commands V2 12: 98.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供