6 个月前

多任务学习

多模态表征

Shiguang Shan Shuang Yang Jingyun Xiao Yuanhang Zhang

摘要

本报告阐述了我们参加ActivityNet Challenge 2019中主动说话人检测任务（任务B-2）的方案。我们提出了一种新型音视频融合模型，该模型基于预训练的3D-ResNet18视觉模型（用于唇读）和预训练的VGG-M声学模型（用于音频-视频同步）。该模型采用多任务学习范式，通过两种损失函数进行联合训练：一种对比损失（contrastive loss），用于强化主动说话人音频与视频特征之间的匹配性；另一种为标准交叉熵损失（cross-entropy loss），用于获得说话人/非说话人分类标签。在AVAActiveSpeaker验证集上，该模型取得了84.0%的mAP（平均精度均值）成绩。实验结果表明，预训练的特征嵌入具有良好的跨任务与跨数据格式迁移能力，同时验证了所提出的多任务学习策略的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

多模态表征

Shiguang Shan Shuang Yang Jingyun Xiao Yuanhang Zhang

摘要

本报告阐述了我们参加ActivityNet Challenge 2019中主动说话人检测任务（任务B-2）的方案。我们提出了一种新型音视频融合模型，该模型基于预训练的3D-ResNet18视觉模型（用于唇读）和预训练的VGG-M声学模型（用于音频-视频同步）。该模型采用多任务学习范式，通过两种损失函数进行联合训练：一种对比损失（contrastive loss），用于强化主动说话人音频与视频特征之间的匹配性；另一种为标准交叉熵损失（cross-entropy loss），用于获得说话人/非说话人分类标签。在AVAActiveSpeaker验证集上，该模型取得了84.0%的mAP（平均精度均值）成绩。实验结果表明，预训练的特征嵌入具有良好的跨任务与跨数据格式迁移能力，同时验证了所提出的多任务学习策略的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供