8 个月前

多模态表征

计算机视觉

RAHUL SHARMA SHRIKANTH NARAYANAN

摘要

视频中的活跃说话者检测旨在将视频帧中可见的源面部与音频模态中的底层语音关联起来。建立这种语音-面部关系的主要信息来源有两方面：i) 视觉活动及其与语音信号的交互；ii) 以面部和语音形式在不同模态间共现的说话者身份。这两种方法各有其局限性：视听活动模型容易被其他频繁出现的发声活动（如笑和咀嚼）所混淆，而基于说话者身份的方法则受限于视频中是否包含足够的区分信息来建立语音-面部关联。由于这两种方法是独立的，我们在本研究中探讨了它们的互补性质。我们提出了一种新颖的无监督框架，用于指导说话者的跨模态身份关联与视听活动相结合，以实现活跃说话者检测。通过在两个基准数据集上的娱乐媒体视频进行实验，即AVA活跃说话者数据集（电影）和视觉人物聚类数据集（电视剧），我们展示了两种方法的简单后期融合可以提高活跃说话者检测的性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

RAHUL SHARMA SHRIKANTH NARAYANAN

摘要

视频中的活跃说话者检测旨在将视频帧中可见的源面部与音频模态中的底层语音关联起来。建立这种语音-面部关系的主要信息来源有两方面：i) 视觉活动及其与语音信号的交互；ii) 以面部和语音形式在不同模态间共现的说话者身份。这两种方法各有其局限性：视听活动模型容易被其他频繁出现的发声活动（如笑和咀嚼）所混淆，而基于说话者身份的方法则受限于视频中是否包含足够的区分信息来建立语音-面部关联。由于这两种方法是独立的，我们在本研究中探讨了它们的互补性质。我们提出了一种新颖的无监督框架，用于指导说话者的跨模态身份关联与视听活动相结合，以实现活跃说话者检测。通过在两个基准数据集上的娱乐媒体视频进行实验，即AVA活跃说话者数据集（电影）和视觉人物聚类数据集（电视剧），我们展示了两种方法的简单后期融合可以提高活跃说话者检测的性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供