8 个月前

计算机视觉

计算机视觉

Santiago Pascual Mirco Ravanelli Joan Serrà Antonio Bonafonte Yoshua Bengio

摘要

在机器学习中，无监督学习良好的表示仍然是一个开放问题，尤其是对于语音信号而言，这类信号通常具有复杂的层次结构和较长的序列，使得这一任务更具挑战性。然而，一些最近的研究表明，通过采用自监督编码器-判别器方法可以提取有用的语音表示。本文提出了一种改进的自监督方法，其中单个神经编码器后面连接多个工作模块（workers），这些工作模块共同解决不同的自监督任务。不同任务之间的共识自然地对编码器施加了有意义的约束，有助于发现普遍适用的表示并减少学习浅层特征的风险。实验结果表明，所提出的这种方法能够学习到可迁移、鲁棒且与具体问题无关的特征，这些特征携带了来自语音信号的相关信息，如说话人身份、音素乃至更高层次的情感线索。此外，若干设计选择使得该编码器易于导出，便于其直接应用于或适应于不同的问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Santiago Pascual Mirco Ravanelli Joan Serrà Antonio Bonafonte Yoshua Bengio

摘要

在机器学习中，无监督学习良好的表示仍然是一个开放问题，尤其是对于语音信号而言，这类信号通常具有复杂的层次结构和较长的序列，使得这一任务更具挑战性。然而，一些最近的研究表明，通过采用自监督编码器-判别器方法可以提取有用的语音表示。本文提出了一种改进的自监督方法，其中单个神经编码器后面连接多个工作模块（workers），这些工作模块共同解决不同的自监督任务。不同任务之间的共识自然地对编码器施加了有意义的约束，有助于发现普遍适用的表示并减少学习浅层特征的风险。实验结果表明，所提出的这种方法能够学习到可迁移、鲁棒且与具体问题无关的特征，这些特征携带了来自语音信号的相关信息，如说话人身份、音素乃至更高层次的情感线索。此外，若干设计选择使得该编码器易于导出，便于其直接应用于或适应于不同的问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供