HyperAIHyperAI

Command Palette

Search for a command to run...

面向音视频主动说话人检测的多任务学习

Shiguang Shan Shuang Yang Jingyun Xiao Yuanhang Zhang

摘要

本报告阐述了我们参加ActivityNet Challenge 2019中主动说话人检测任务(任务B-2)的方案。我们提出了一种新型音视频融合模型,该模型基于预训练的3D-ResNet18视觉模型(用于唇读)和预训练的VGG-M声学模型(用于音频-视频同步)。该模型采用多任务学习范式,通过两种损失函数进行联合训练:一种对比损失(contrastive loss),用于强化主动说话人音频与视频特征之间的匹配性;另一种为标准交叉熵损失(cross-entropy loss),用于获得说话人/非说话人分类标签。在AVAActiveSpeaker验证集上,该模型取得了84.0%的mAP(平均精度均值)成绩。实验结果表明,预训练的特征嵌入具有良好的跨任务与跨数据格式迁移能力,同时验证了所提出的多任务学习策略的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供