HyperAI超神经
10 days ago

VIRES:基于草图和文本引导的视频实例重绘

Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, Boxin Shi
VIRES:基于草图和文本引导的视频实例重绘
摘要

我们介绍了VIRES,一种基于草图和文本引导的视频实例重绘方法,能够实现视频实例的重绘、替换、生成和移除。现有的方法在时间一致性以及与提供的草图序列准确对齐方面存在困难。VIRES利用了文本到视频模型的生成先验,以保持时间一致性并产生视觉上令人满意的结果。我们提出了带有标准化自缩放功能的顺序ControlNet,该网络能够有效提取结构布局并自适应捕捉高对比度的草图细节。此外,我们通过添加草图注意力机制增强了扩散变换器主干,以便解释和注入细粒度的草图语义。一个草图感知编码器确保了重绘结果与提供的草图序列对齐。此外,我们贡献了一个名为VireSet的数据集,该数据集包含详细的注释,专门用于训练和评估视频实例编辑方法。实验结果表明,VIRES在视觉质量、时间一致性、条件对齐和人类评分方面均优于现有最先进方法。项目页面:此 https URL