FocusedAD：以角色为中心的电影音频描述

Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu

发布日期: 4/23/2025

摘要

电影音频描述（Audio Description, AD）旨在为没有对话的片段叙述视觉内容，特别有利于盲人和视障（Blind and Visually Impaired, BVI）观众。与一般的视频字幕相比，AD需要提供与情节相关的叙述，并明确提及角色名称，这在电影理解方面提出了独特的挑战。为了识别活跃的主要角色并专注于与情节相关的内容区域，我们提出了一种新的框架——FocusedAD，该框架提供以角色为中心的电影音频描述。它包括：(i) 角色感知模块（Character Perception Module, CPM），用于跟踪角色区域并将其与名称关联；(ii) 动态优先模块（Dynamic Prior Module, DPM），通过可学习的软提示注入先前AD和字幕中的上下文线索；以及 (iii) 专注字幕模块（Focused Caption Module, FCM），生成富含情节相关细节和命名角色的叙述。为了克服角色识别方面的局限性，我们还引入了一条自动化流水线来构建角色查询库。FocusedAD在多个基准测试中实现了最先进的性能，包括在MAD-eval-Named数据集和我们新提出的Cinepile-AD数据集上的强零样本结果。代码和数据将在 https://github.com/Thorin215/FocusedAD 上发布。

查看论文详情