Command Palette
Search for a command to run...
Ditto-1M 指令驱动视频编辑数据集
Ditto-1M 是由香港科技大学联合蚂蚁集团、浙江大学等机构于 2025 年发布的一个指令驱动视频编辑数据集,相关论文成果为「Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset」,旨在推动基于自然语言指令的视频编辑模型的发展,通过大规模、高质量的合成样本,提升模型对复杂指令的理解与视频生成的精确度。
该数据集包含约 1,000,000 条高保真视频编辑三元组,分别由源视频、编辑指令和编辑后视频组成,平均每段视频约 101 帧,分辨率为 1,280×720 。其中编辑任务分为三类:
- 全局风格变换(Global style transfer):包括艺术风格变化、色彩分级、视觉特效等;
- 全局自由编辑(Global freeform editing):包括复杂场景修改、环境变化、创意转换等;
- 局部编辑(Local editing):包括精确的物体修改、属性变化、局部调整等。
