Command Palette
Search for a command to run...

摘要
长上下文能力对于多模态基础模型至关重要。我们提出 LongVILA,这是一个面向长上下文视觉-语言模型的全栈解决方案,涵盖系统架构、模型训练以及数据集构建。在系统层面,我们首次引入了多模态序列并行(Multi-Modal Sequence Parallelism, MM-SP)系统,实现了长上下文的训练与推理,可在 256 块 GPU 上支持长达 200 万 token 的上下文长度训练。MM-SP 具有出色的效率,在纯文本场景下,其速度比环形序列并行(Ring-Style Sequence Parallelism)快 2.1 倍至 5.7 倍,比 Megatron-LM 快 1.1 倍至 1.4 倍,并且可无缝集成至 Hugging Face Transformers 生态。在模型训练方面,我们设计了一个五阶段训练流程,包括对齐、预训练、上下文扩展,以及长短上下文联合监督微调。在数据集方面,我们精心构建了大规模视觉-语言预训练数据集和长视频指令跟随数据集,以支持上述多阶段训练过程。该全栈解决方案将 VILA 模型可处理的帧数提升了 128 倍(从 8 帧扩展至 1024 帧),并将长视频字幕生成任务的得分从 2.00 提升至 3.26(提升 1.6 倍)。在包含 1400 帧(上下文长度达 27.4 万)的“大海捞针”任务中,LongVILA 达到了 99.5% 的准确率。此外,LongVILA-8B 在 VideoMME 基准测试中,随着视频帧数的增加,其在长视频任务上的性能也表现出持续提升。
代码仓库
nvlabs/vila
官方
pytorch
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| video-question-answering-on-next-qa | LongVILA(7B) | Accuracy: 80.7  |