HyperAIHyperAI

Command Palette

Search for a command to run...

SpEx+: 一种完整的时域说话人提取网络

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

摘要

说话人提取旨在从多说话人的环境中提取目标说话人的语音信号,给定目标说话人的参考语音。我们最近提出了一种时域解决方案,即SpEx,该方法避免了频域方法中的相位估计。然而,SpEx并不是完全的时域解决方案,因为它在进行说话人提取时采用时域语音编码,而参考的是频域说话人嵌入。此外,时域分析窗口的大小与频域输入窗口的大小也不同。这种不匹配对系统性能产生了不利影响。为了解决这一问题,我们提出了一种完整的时域说话人提取方案,称为SpEx+。具体而言,我们将两个相同的语音编码网络的权重绑定在一起,一个用于编码器-提取器-解码器管道,另一个作为说话人编码器的一部分。实验结果表明,在WSJ0-2mix-extr数据库的不同性别和相同性别条件下,SpEx+分别比最先进的SpEx基线提高了0.8 dB和2.1 dB的信噪比(SDR)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供