Vidi:用于视频理解和编辑的大型多模态模型
Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
发布日期: 4/23/2025

摘要
人类自然会与他们所连接的人分享信息,而视频已经成为互联网上主要的交流和表达媒介之一。为了支持高质量大规模视频内容的创作,现代工作流程需要对原始输入材料(例如未经编辑的摄像机拍摄素材)和编辑组件(例如视觉效果)有全面的理解。在视频编辑场景中,模型必须处理多种模态(例如视觉、音频、文本)并具备丰富的背景知识,同时能够应对灵活的输入长度(例如长达一小时的原始视频),这对传统模型提出了重大挑战。在本报告中,我们介绍了Vidi,这是一个适用于各种视频理解和编辑场景的大规模多模态模型(LMMs)系列。首次发布的重点是时间检索,即识别输入视频中与给定文本查询相对应的时间范围,在智能编辑中发挥着关键作用。该模型能够处理长达一小时的视频,并具备强大的时间理解能力,例如检索特定查询的时间范围。为了支持在实际场景中的全面评估,我们还提出了VUE-TR基准测试,它引入了五项关键改进:1) 视频时长:显著长于现有的时间检索数据集;2) 音频支持:包括基于音频的查询;3) 查询格式:多样化的查询长度/格式;4) 标注质量:真实时间范围由人工标注;5) 评估指标:一种改进后的IoU指标,以支持对多个时间范围进行评估。值得注意的是,在时间检索任务上,Vidi显著优于领先的专有模型(如GPT-4o和Gemini),表明其在视频编辑场景中的优越性。