PerceptionLM:用于详细视觉理解的开放访问数据和模型
Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
发布日期: 4/23/2025

摘要
视觉-语言模型是计算机视觉研究的重要组成部分,然而许多高性能模型仍然是闭源的,这使得它们的数据、设计和训练方法不透明。为此,研究界通过从黑盒模型中提取知识来标注训练数据,从而在基准测试中取得了优异的成绩,但这种做法却以可衡量的科学进步为代价。然而,在不了解教师模型的细节及其数据来源的情况下,科学进步仍然难以衡量。本文研究了在一个完全开放且可复现的框架内构建感知语言模型(PLM),以实现图像和视频理解领域的透明研究。我们分析了不依赖于专有模型蒸馏的标准训练流程,并探索了大规模合成数据来识别关键的数据缺口,特别是在详细视频理解方面。为了弥补这些缺口,我们发布了280万个人类标注的细粒度视频问答对和时空定位视频字幕实例。此外,我们还推出了PLM-VideoBench套件,用于评估具有挑战性的视频理解任务,重点考察对视频中“什么”、“哪里”、“何时”和“如何”的推理能力。我们通过提供数据、训练方法、代码及模型使我们的工作完全可复现。 注:原文中的“Perception Language Model (PLM)”直接翻译为“感知语言模型(PLM)”,“PLM-VideoBench”作为专有名词保留原名。