在 Discord 上讨论

日期

4 个月前

数据集组织

论文 URL

许可证

Non-Commercial

标签

自然语言处理

Ditto-1M 是由香港科技大学联合蚂蚁集团、浙江大学等机构于 2025 年发布的一个指令驱动视频编辑数据集，相关论文成果为「Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset」，旨在推动基于自然语言指令的视频编辑模型的发展，通过大规模、高质量的合成样本，提升模型对复杂指令的理解与视频生成的精确度。

该数据集包含约 1,000,000 条高保真视频编辑三元组，分别由源视频、编辑指令和编辑后视频组成，平均每段视频约 101 帧，分辨率为 1,280×720 。其中编辑任务分为三类：

全局风格变换（Global style transfer）：包括艺术风格变化、色彩分级、视觉特效等；
全局自由编辑（Global freeform editing）：包括复杂场景修改、环境变化、创意转换等；
局部编辑（Local editing）：包括精确的物体修改、属性变化、局部调整等。

数据集示例

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 support@hyper.ai 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供