FocusedAD:以角色为中心的电影音频描述
Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
发布日期: 4/23/2025
摘要
电影音频描述(Audio Description, AD)旨在为没有对话的片段叙述视觉内容,特别有利于盲人和视障(Blind and Visually Impaired, BVI)观众。与一般的视频字幕相比,AD需要提供与情节相关的叙述,并明确提及角色名称,这在电影理解方面提出了独特的挑战。为了识别活跃的主要角色并专注于与情节相关的内容区域,我们提出了一种新的框架——FocusedAD,该框架提供以角色为中心的电影音频描述。它包括:(i) 角色感知模块(Character Perception Module, CPM),用于跟踪角色区域并将其与名称关联;(ii) 动态优先模块(Dynamic Prior Module, DPM),通过可学习的软提示注入先前AD和字幕中的上下文线索;以及 (iii) 专注字幕模块(Focused Caption Module, FCM),生成富含情节相关细节和命名角色的叙述。为了克服角色识别方面的局限性,我们还引入了一条自动化流水线来构建角色查询库。FocusedAD在多个基准测试中实现了最先进的性能,包括在MAD-eval-Named数据集和我们新提出的Cinepile-AD数据集上的强零样本结果。代码和数据将在 https://github.com/Thorin215/FocusedAD 上发布。