6 个月前

音频和语音处理

Emile Chapuis Pierre Colombo Matteo Manica Matthieu Labeau Chloe Clavel

摘要

对话行为识别与情感/情绪识别等序列标注任务是语音对话系统中的关键组成部分。本文提出了一种新方法，用于学习适用于语音对话的通用表示，并在我们提出的全新基准测试集——语音语言序列标注评估基准（Sequence Labelling Evaluation Benchmark for Spoken Language, \texttt{SILICONE}）上进行了评估。\texttt{SILICONE} 具有模型无关性，包含10个不同规模的数据集。我们采用基于Transformer架构的层次化编码器来获取这些表示，并对两种广为人知的预训练目标进行了扩展。预训练在OpenSubtitles数据集上进行，该数据集是一个大规模语音对话语料库，包含超过23亿个词元（tokens）。实验结果表明，与当前最先进模型相比，层次化编码器在保持优异性能的同时，参数量显著更少，且在预训练和微调阶段均展现出重要优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Emile Chapuis Pierre Colombo Matteo Manica Matthieu Labeau Chloe Clavel

摘要

对话行为识别与情感/情绪识别等序列标注任务是语音对话系统中的关键组成部分。本文提出了一种新方法，用于学习适用于语音对话的通用表示，并在我们提出的全新基准测试集——语音语言序列标注评估基准（Sequence Labelling Evaluation Benchmark for Spoken Language, \texttt{SILICONE}）上进行了评估。\texttt{SILICONE} 具有模型无关性，包含10个不同规模的数据集。我们采用基于Transformer架构的层次化编码器来获取这些表示，并对两种广为人知的预训练目标进行了扩展。预训练在OpenSubtitles数据集上进行，该数据集是一个大规模语音对话语料库，包含超过23亿个词元（tokens）。实验结果表明，与当前最先进模型相比，层次化编码器在保持优异性能的同时，参数量显著更少，且在预训练和微调阶段均展现出重要优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供