Ditto-1M

Name: Ditto-1M
Creator: 香港科技大学,蚂蚁集团,浙江大学,东北大学
Published: 2025-10-17 23:31:40
License: 暂无描述

arXiv2025-10-17 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/QingyanBai/Ditto-1M

下载链接

链接失效反馈

官方服务：

资源简介：

Ditto-1M是一个大规模、高质量的开源指令-视频对数据集，包含超过一百万个高保真视频编辑示例。该数据集由Ditto框架生成，该框架融合了先进的图像编辑器和上下文视频生成器，克服了现有模型的局限性。Ditto-1M数据集旨在解决指令式视频编辑中大规模、高质量训练数据的稀缺问题，通过高效的蒸馏模型架构和智能代理的辅助，实现了数据生成的可扩展性。Ditto-1M数据集可用于训练视频编辑模型，并已在Editto模型上取得了优异的性能。

Ditto-1M is a large-scale, high-quality open-source instruction-video pair dataset containing over one million high-fidelity video editing examples. This dataset is generated by the Ditto framework, which integrates state-of-the-art image editors and contextual video generators to overcome the limitations of existing models. Designed to address the scarcity of large-scale, high-quality training data for instruction-driven video editing, Ditto-1M achieves scalable data generation through an efficient distillation-based model architecture and the assistance of AI Agents. The Ditto-1M dataset can be used to train video editing models and has achieved excellent performance on the Editto model.

提供机构：

香港科技大学,蚂蚁集团,浙江大学,东北大学

创建时间：

2025-10-17

搜集汇总

数据集介绍

构建方式

在指令驱动视频编辑领域面临高质量数据稀缺的背景下，Ditto-1M数据集通过融合图像编辑先验与上下文视频生成技术构建而成。其流程首先从专业视频平台筛选高分辨率源视频，采用视觉编码器进行去重处理，并通过运动轨迹分析保留动态内容。随后利用视觉语言模型自动生成多样化编辑指令，结合指令化图像编辑器处理关键帧作为视觉锚点，同时提取深度视频作为时空结构约束。最终通过量化蒸馏的上下文视频生成器合成编辑结果，并经过视觉语言模型的指令忠实度、运动一致性与美学质量四重过滤机制完成数据遴选。

特点

该数据集的核心优势体现在其规模与质量的协同提升。作为百万量级视频编辑三元组集合，其内容覆盖全局风格转换与局部对象编辑双重维度，其中70万样本涉及场景风格化等全局编辑，30万样本专注于对象替换等局部操作。所有视频均保持1280×720分辨率、101帧长度与20帧率的标准格式，且通过自主智能代理实现了指令生成与质量控制的全程自动化。相较于现有数据集，Ditto-1M在视觉保真度、时序连贯性和编辑多样性方面建立新的基准，其深度引导的生成机制有效解决了传统方法中内容失真与运动断裂的固有问题。

使用方法

该数据集主要服务于端到端视频编辑模型的训练与评估。研究人员可采用模态课程学习策略渐进式地利用数据集：初始阶段同时使用文本指令与编辑参考帧作为多模态输入，随后逐步衰减视觉引导的权重，最终实现纯文本指令的精准映射。训练过程中应保持基础生成模型参数冻结，仅微调上下文模块的投影层，以平衡编辑性能与生成先验的保留。评估阶段建议结合CLIP文本-视频相似度、帧间一致性指标与视觉语言模型评分体系，同时通过人工评测验证指令遵循度、时序连贯性与整体质量三个维度的表现。

背景与挑战

背景概述

指令式视频编辑技术作为视觉生成领域的前沿分支，旨在通过自然语言指令实现对视频内容的精准操控。2025年，由香港科技大学与蚂蚁集团联合团队发布的Ditto-1M数据集，通过融合图像编辑器的创造性潜力与上下文视频生成技术，构建了百万级高质量视频编辑样本。该数据集以解决视频编辑领域长期存在的数据稀缺问题为核心目标，通过自动化合成流程覆盖全局风格转换与局部对象编辑等多维度任务，为提升视频生成模型的指令遵循能力与时空一致性奠定了数据基础。

当前挑战

在领域问题层面，视频编辑需攻克时序连贯性维护与复杂运动模式保持的双重挑战，传统方法常因帧间语义断裂或运动失真导致视觉质量下降。数据构建过程中，研发团队面临生成质量与计算成本的尖锐矛盾：高保真视频合成需消耗逾12000GPU日的算力资源，同时需通过深度引导与时空增强技术抑制画面闪烁；此外，自动化指令生成与质量过滤机制需平衡编辑多样性与语义准确性，避免产生逻辑冲突或美学缺陷的样本。

常用场景

经典使用场景

在视频内容创作领域，Ditto-1M数据集通过其百万级高质量视频编辑样本，为基于指令的视频编辑模型提供了核心训练基础。该数据集特别擅长处理全局风格转换与局部对象编辑任务，例如将日常场景转化为赛博朋克风格或精确替换视频中的特定物体，其生成样本在时间一致性和视觉保真度方面展现出显著优势，成为评估模型编辑能力的重要基准。

衍生相关工作

基于该数据集训练的Editto模型在多项基准测试中确立新标杆，启发了诸如VEGGIE、InsViE等后续研究的架构创新。其提出的模态课程学习策略被广泛借鉴用于解决多模态条件融合问题，而数据合成管道中深度引导与视觉增强技术的结合，更是催生了新一代视频生成模型在运动保持与编辑精度上的突破性进展。

数据集最近研究