HyperAIHyperAI

Command Palette

Search for a command to run...

用于说话人识别的重塑维度网络

Ivan Yakovlev Rostislav Makarov Andrei Balykin Pavel Malov Anton Okhotnikov Nikita Torgashov

摘要

本文提出了一种名为重塑维度网络(Reshape Dimensions Network, ReDimNet)的新型神经网络架构,用于提取话语级说话人表征。该方法通过将二维特征图在时频维度上进行维度重塑,实现从二维特征到一维信号表示的转换,以及反向转换,从而支持一维与二维模块的联合使用。我们设计了一种创新的网络拓扑结构,有效保持了一维与二维模块输出的通道-时间-频率维度体积,促进了残差特征图的高效聚合。此外,ReDimNet具有良好的可扩展性,本文构建了多种不同规模的模型,参数量范围为100万至1500万,计算量(GMACs)范围为0.5至20 GMACs。实验结果表明,ReDimNet在说话人识别任务中达到了当前最优性能,同时显著降低了计算复杂度和模型参数量。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供