6 天前

LongVie:多模态引导的可控超长视频生成

Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
LongVie:多模态引导的可控超长视频生成
摘要

可控的超长视频生成是一项基础性但极具挑战性的任务。尽管现有方法在生成短片段视频时表现有效,但由于存在时间不一致性和视觉质量退化等问题,难以实现有效扩展。本文首次系统地探究并识别出三个关键因素:独立的噪声初始化、独立的控制信号归一化,以及单模态引导的局限性。为解决上述问题,我们提出 LongVie,一种端到端的自回归框架,用于可控的长视频生成。LongVie 引入两项核心设计以保障时间一致性:1)统一的噪声初始化策略,确保各视频片段间生成的一致性;2)全局控制信号归一化机制,实现整个视频过程中控制空间的对齐。为缓解视觉质量退化问题,LongVie 采用:3)多模态控制框架,融合密集控制信号(如深度图)与稀疏控制信号(如关键点),并结合:4)退化感知的训练策略,动态调节不同模态的贡献权重,以在时间维度上持续保持视觉质量。此外,我们还构建了 LongVGenBench,一个综合性基准数据集,包含100个高分辨率视频,涵盖多样化的现实世界与合成环境,每个视频时长均超过一分钟。大量实验表明,LongVie 在长程可控性、一致性与视觉质量方面均达到当前最优水平。