描述一切:详细的局部图像和视频字幕生成
Long Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui
发布日期: 4/23/2025

摘要
生成图像和视频中特定区域的详细且准确的描述仍然是视觉-语言模型面临的一个基本挑战。我们引入了“描述任意模型”(Describe Anything Model,DAM),该模型专为详细局部化字幕(Detailed Localized Captioning,DLC)而设计。DAM通过两项关键创新保留了局部细节和全局上下文:一是焦点提示(focal prompt),确保目标区域的高分辨率编码;二是局部化视觉主干网络(localized vision backbone),将精确的定位与其更广泛的上下文相结合。为了应对高质量DLC数据稀缺的问题,我们提出了一种基于半监督学习(Semi-supervised Learning,SSL)的数据管道(Data Pipeline,DLC-SDP)。DLC-SDP从现有的分割数据集开始,并利用SSL扩展到未标记的网络图像。我们还引入了DLC-Bench基准测试,旨在评估DLC时无需依赖参考字幕。DAM在涵盖关键词级、短语级和详细多句局部化图像及视频字幕生成的7个基准测试中设立了新的最先进水平。