Command Palette

Search for a command to run...

5 个月前

从多个自监督任务中学习与问题无关的语音表示

从多个自监督任务中学习与问题无关的语音表示

摘要

在机器学习中,无监督学习良好的表示仍然是一个开放问题,尤其是对于语音信号而言,这类信号通常具有复杂的层次结构和较长的序列,使得这一任务更具挑战性。然而,一些最近的研究表明,通过采用自监督编码器-判别器方法可以提取有用的语音表示。本文提出了一种改进的自监督方法,其中单个神经编码器后面连接多个工作模块(workers),这些工作模块共同解决不同的自监督任务。不同任务之间的共识自然地对编码器施加了有意义的约束,有助于发现普遍适用的表示并减少学习浅层特征的风险。实验结果表明,所提出的这种方法能够学习到可迁移、鲁棒且与具体问题无关的特征,这些特征携带了来自语音信号的相关信息,如说话人身份、音素乃至更高层次的情感线索。此外,若干设计选择使得该编码器易于导出,便于其直接应用于或适应于不同的问题。

代码仓库

santi-pdp/pase
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
distant-speech-recognition-on-dirha-englishPASE-FineTuned
Word Error Rate (WER): 29.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供