ReCo-Data

Name: ReCo-Data
Creator: 中国科学技术大学, HiDream.ai公司
Published: 2025-12-19 22:49:30
License: 暂无描述

arXiv2025-12-19 更新2025-12-23 收录

下载链接：

https://zhw-zhang.github.io/ReCo-page/

下载链接

链接失效反馈

官方服务：

资源简介：

ReCo-Data是由HiDream.ai与中国科学技术大学联合构建的大规模高质量视频编辑数据集，包含50万条指令-视频对，覆盖多样化的编辑任务场景。该数据集通过系统化采集和标注流程构建，支持局部对象编辑与全局风格迁移等复杂操作，旨在推动基于文本指令的视频编辑技术发展，解决现有方法在编辑精度和内容一致性方面的挑战。

ReCo-Data is a large-scale high-quality video editing dataset jointly developed by HiDream.ai and the University of Science and Technology of China. It contains 500,000 instruction-video pairs covering diverse editing task scenarios. Built through a systematic collection and annotation pipeline, the dataset supports complex operations such as local object editing and global style transfer. It aims to promote the development of text-instruction-based video editing technologies and address the challenges faced by existing methods in terms of editing accuracy and content consistency.

提供机构：

中国科学技术大学, HiDream.ai公司

创建时间：

2025-12-19

原始信息汇总

ReCo数据集概述

数据集基本信息

数据集名称：ReCo-Data
核心关联方法：ReCo (Region-Constraint In-Context Generation for Instructional Video Editing)
数据规模：包含超过50万（500K+）个指令-视频对
数据质量：经人工评估，每个任务的高质量数据比例超过90%

数据集构成与任务

任务类型与规模：
- 替换（Replace）：156.6K
- 风格化（Style）：130.6K
- 移除（Remove）：121.6K
- 添加（Add）：115.6K
任务描述：支持基于指令的视频编辑，涵盖替换、添加、移除和风格化四大任务。

数据收集与生成流程

数据收集管道包含六个主要阶段：

原始数据预处理：根据特定质量标准过滤原始视频数据。
对象分割：从视频中提取对象掩码。
指令生成：使用VLLM（即Gemini-2.5-Flash-Thinking）构建编辑提示。
条件对构建：涉及首帧编辑和深度图生成，为VACE准备输入条件。
视频合成：使用VACE基于条件生成视频。
视频过滤与重新标注：再次利用VLLM（即Gemini-2.5-Flash-Thinking）过滤低质量样本并为剩余视频重新标注。

资源消耗

计算资源：数据合成过程大约需要76,800个NVIDIA RTX 4090 GPU小时。
成本：VLLM操作总计花费约13,600美元。

关联方法简介

方法名称：ReCo (Region-Constraint In-Context Generation for Instructional Video Editing)
核心创新：一种新的教学视频编辑范式，专注于在上下文生成过程中对编辑区域和非编辑区域之间的约束进行建模。
技术要点：
- 将源视频和目标视频进行宽度拼接以进行联合去噪。
- 采用两种正则化项校准视频扩散学习：潜在正则化和注意力正则化。
- 潜在正则化：增加编辑区域在源视频和目标视频之间的潜在差异，同时减少非编辑区域的差异，以强调对编辑区域的修改并减轻外部意外内容的生成。
- 注意力正则化：抑制编辑区域中的标记对源视频对应部分标记的注意力，从而减轻目标视频中新对象生成过程中的干扰。

方法评估

比较方法：与先前的基于指令的视频编辑方法（InsViE, Lucy Edit, Ditto）以及基于描述的编辑流程（VACE）进行了比较。
比较任务：涵盖添加、替换、风格化和移除任务。

搜集汇总

数据集介绍

构建方式

在指令式视频编辑领域，高质量训练数据的稀缺长期制约着模型发展。为突破这一瓶颈，ReCo-Data的构建遵循一套严谨的六阶段流程。首先对原始视频进行预处理，依据美学评分、运动幅度等标准筛选高质量片段。随后利用Grounding DINO与SAM 2模型进行对象分割，精准提取目标物体的掩码序列。指令生成阶段借助Gemini-2.5-Flash-Thinking大语言模型，根据视频描述与关键帧生成多样化的编辑指令。条件对构建环节针对不同编辑任务采用差异化策略，例如在对象移除任务中结合ObjectClear与VACE模型确保编辑质量。视频合成阶段通过VACE模型批量生成编辑结果，并设计可逆替换与跨任务增强策略将数据规模扩展至约80万对。最终通过大语言模型进行严格的质量过滤与重新标注，形成包含50万对高质量指令-视频样本的最终数据集。

特点

作为专为指令式视频编辑设计的大规模数据集，ReCo-Data展现出多维度优势。其覆盖范围全面，均衡包含对象添加、移除、替换与全局风格迁移四大核心编辑任务，为模型的多任务统一训练提供了坚实基础。数据质量卓越，通过严格的预处理、合成后过滤与重标注流程，确保了91.6%的高质量样本比例，显著优于现有数据集。技术架构先进，构建流程深度融合了当前最先进的视觉基础模型与大语言模型，实现了从对象定位、指令生成到视频合成的全链条自动化。时空一致性突出，所有视频均包含81帧、持续5秒、分辨率达480×832，为模型学习复杂的时空依赖关系提供了充分条件。这些特征共同使ReCo-Data成为推动指令式视频编辑研究发展的关键基础设施。

使用方法

ReCo-Data主要服务于基于扩散模型的指令式视频编辑模型的训练与评估。在训练应用中，研究者可将数据集中源视频与文本指令作为模型输入，编辑后视频作为监督目标，训练模型理解并执行自然语言编辑指令的能力。数据集支持端到端的训练范式，特别适用于ReCo论文提出的区域约束上下文生成等先进架构，帮助模型学习精准定位编辑区域并保持背景一致性的关键能力。在评估方面，数据集的四个任务划分与高质量样本为构建全面的评测基准提供了理想素材。使用者可从中划分测试集，从编辑准确性、视频自然度与视觉质量等多个维度系统评估模型性能。数据集的标准化格式与丰富元数据也便于进行消融实验，深入探究不同数据规模、任务分布对模型泛化能力的影响。

背景与挑战

背景概述

随着扩散模型在视觉生成领域的飞速发展，基于文本指令的视频编辑技术逐渐成为研究热点。然而，现有方法往往依赖于输入掩码来定位编辑区域，或需要针对特定任务进行配置，限制了其在实际场景中的应用潜力。为应对这一挑战，由HiDream.ai与中国科学技术大学的研究团队于2025年共同提出了ReCo-Data数据集。该数据集旨在支撑一种全新的区域约束上下文生成范式，以解决仅凭文本指令进行视频编辑的核心难题，即如何在没有明确区域标注的情况下，精准定位编辑区域并生成高保真、时序一致的视频内容。ReCo-Data的构建标志着指令式视频编辑向更通用、更实用的方向迈出了关键一步，为后续模型训练与算法评估提供了至关重要的高质量数据基础。

当前挑战

ReCo-Data所针对的指令式视频编辑任务，其核心挑战在于如何仅凭自然语言指令，在复杂的时空维度上实现精准且一致的内容修改。具体而言，首要挑战是准确识别并定位指令所指的编辑区域，避免对非目标区域造成意外影响。其次，在生成过程中，需有效缓解编辑区域与非编辑区域之间在去噪时的令牌干扰，确保新生成对象与原始背景能够和谐融合。在数据集构建层面，挑战同样艰巨：大规模、高质量的视频-指令对数据极度稀缺；现有的数据合成方法难以同时保证编辑准确性、视觉逼真度与时间连贯性；此外，构建覆盖多种编辑任务（如对象增、删、换及全局风格迁移）且数据分布均衡的大规模数据集，需要设计复杂而鲁棒的自动化流水线，并克服高昂的计算与人工评估成本。

常用场景

经典使用场景

在基于指令的视频编辑研究领域，ReCo-Data数据集为区域约束上下文生成范式提供了核心训练与验证基础。该数据集最经典的使用场景是支撑模型学习仅凭文本指令对视频内容进行精确修改，包括局部对象编辑与全局风格迁移两大核心任务。通过提供大规模、高质量的指令-视频对，研究者能够训练模型准确理解自然语言指令的语义，并定位视频中待编辑的区域，从而在无需人工指定掩码的情况下实现高保真的内容生成与替换。

衍生相关工作

ReCo-Data的发布催生并支撑了一系列围绕指令视频编辑的衍生研究工作。其构建方法论为后续大规模视频编辑数据集的合成提供了可借鉴的管道，例如在数据过滤、指令生成与质量评估环节引入视觉大语言模型的思路被广泛采纳。以该数据集为基础训练的ReCo框架及其区域约束思想，直接启发了后续研究对编辑区域精准定位与跨区域令牌干扰缓解机制的深入探索，推动了如Lucy-Edit、Ditto等同期或后续工作在设计范式上的优化与改进。

数据集最近研究