Command Palette

Search for a command to run...

3 个月前

基于低开销四元数神经模型的设备端关键词识别

摘要

在智能边缘设备上,本地化关键词识别(On-device Keyword Spotting, KWS)是实现唤醒功能与用户交互的关键组件。现有的轻量级模型主要基于一维(1D)和二维(2D)卷积神经网络,其中2D卷积在捕捉特征不变性方面表现更优,而1D卷积则能实现更快的推理速度。本文探索了四元数神经网络(Quaternion Neural Models)作为KWS任务中高效声学建模的一种替代方案。四元数模型能够将输入特征的多个维度嵌入四元数空间中,从而在保持性能的同时,显著减小模型规模并提升效率。我们在Google Command V2数据集上验证了这一方法,通过构建主流KWS模型的四元数版本,结果表明其性能可与现有模型相媲美。此外,本文还对四元数网络的学习行为进行了深入分析,进一步论证了其在其他语音与音频任务中的应用潜力。

基准测试

基准方法指标
keyword-spotting-on-google-speech-commandsQNN
Google Speech Commands: 98.53
Google Speech Commands V2 35: 98.60
keyword-spotting-on-google-speech-commands-v2-3QuaternionNeuralNetwork
Accuracy (10-fold): 98.53
keyword-spotting-on-google-speech-commands-v2-4Quaternion Neural Networks
Accuracy(10-fold): 98.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于低开销四元数神经模型的设备端关键词识别 | 论文 | HyperAI超神经