LiveCC:大规模流式语音转录中的视频LLM学习
Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
发布日期: 4/23/2025

摘要
近期的视频大型语言模型(Video LLMs)通常依赖昂贵的人工标注或专有模型API(例如GPT-4)来生成训练数据,这限制了它们在大规模训练中的应用。本文探讨了使用廉价的自动语音识别(ASR)字幕进行大规模视频LLM训练的方法。具体来说,我们提出了一种新颖的流式训练方法,该方法根据时间戳密集地交错ASR文字和视频帧。与以往使用ASR进行视觉-语言表示的研究相比,我们的方法自然地契合了ASR的流式特性,从而使得模型能够学习时间对齐的、细粒度的视觉-语言建模。为了支持这一训练算法,我们引入了一条数据生产流水线,用于处理YouTube视频及其字幕(CC,即ASR),从而生成用于预训练的Live-CC-5M数据集和用于高质量监督微调(SFT)的Live-WhisperX-526K数据集。值得注意的是,即使没有进行SFT,仅使用ASR预训练的LiveCC-7B-Base模型也展示了具有竞争力的一般视频问答性能,并且在实时视频评论方面表现出新的能力。为了评估这一点,我们精心设计了一个新的LiveSports-3K基准测试,并使用LLM作为评判标准来衡量自由形式评论的质量。实验结果显示,我们的最终模型LiveCC-7B-Instruct即使在实时模式下工作也能超越先进的72B模型(如Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)在评论质量方面的表现,并且在流行的视频问答基准测试如VideoMME和OVOBench上达到了7B/8B规模下的最新技术水平,展示了我们方法广泛的泛化能力。本文的所有资源已发布于https://showlab.github.io/livecc。