Command Palette

Search for a command to run...

Ditto-1M 指令驱动视频编辑数据集

日期

10 天前

机构

浙江大学
蚂蚁集团

论文链接

2510.15742

许可协议

非商业用途

加入 Discord 社区

Ditto-1M 是由香港科技大学联合蚂蚁集团、浙江大学等机构于 2025 年发布的一个指令驱动视频编辑数据集,相关论文成果为「Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset」,旨在推动基于自然语言指令的视频编辑模型的发展,通过大规模、高质量的合成样本,提升模型对复杂指令的理解与视频生成的精确度。

该数据集包含约 1,000,000 条高保真视频编辑三元组,分别由源视频、编辑指令和编辑后视频组成,平均每段视频约 101 帧,分辨率为 1,280×720 。其中编辑任务分为三类:

  • 全局风格变换(Global style transfer):包括艺术风格变化、色彩分级、视觉特效等;
  • 全局自由编辑(Global freeform editing):包括复杂场景修改、环境变化、创意转换等;
  • 局部编辑(Local editing):包括精确的物体修改、属性变化、局部调整等。
数据集示例

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Ditto-1M 指令驱动视频编辑数据集 | 数据集 | HyperAI超神经