five

ReCo-Data

收藏
github2025-12-22 更新2025-12-23 收录
下载链接:
https://github.com/HiDream-ai/ReCo
下载链接
链接失效反馈
官方服务:
资源简介:
ReCo-Data是一个大规模、高质量的视频编辑数据集,包含500K+的指令-视频对,涵盖四种视频编辑任务:对象添加(add)、对象移除(remove)、对象替换(replace)和视频风格化(style)。

ReCo-Data is a large-scale, high-quality video editing dataset containing over 500K instruction-video pairs, covering four types of video editing tasks: object addition (add), object removal (remove), object replacement (replace), and video stylization (style).
创建时间:
2025-12-17
原始信息汇总

ReCo 数据集概述

数据集简介

ReCo 是一个用于指令视频编辑的大规模、高质量数据集。其全称为“Region-Constraint In-Context Generation for Instructional Video Editing”。

数据集构成

训练数据集:ReCo-Data

  • 规模:包含超过 50 万条指令-视频对。
  • 任务类型:涵盖四种视频编辑任务。
    1. 对象添加
    2. 对象移除
    3. 对象替换
    4. 视频风格化

评估基准:ReCo-Bench

  • 规模:包含 480 个视频-指令对。
  • 任务分布:四种任务各 120 对。
  • 源视频来源:全部收集自 Pexels 视频平台。
  • 指令生成:对于局部编辑任务,使用 Gemini-2.5-Flash-Thinking 根据视频内容自动生成多样化的编辑指令。对于风格化任务,随机选择 10 个源视频,并为每个视频应用 12 种不同的风格。

数据获取与结构

下载方式

  • ReCo-Data:可通过运行 bash ./tools/download_dataset.sh 下载至 ./ReCo-Data 目录。
  • ReCo-Bench:可通过运行 bash ./tools/download_ReCo-Bench.sh 下载至 ./ReCo-Bench 目录。
  • 数据预览:可浏览 https://huggingface.co/datasets/HiDream-ai/ReCo-Data/blob/main/examples.tar 查看可视化示例。

目录结构

ReCo-Data/ ├── add/ # 对象添加任务数据 │ ├── add_data_configs.json │ ├── src_videos/ # 原始源视频 │ └── tar_videos/ # 编辑后的目标视频 ├── remove/ # 对象移除任务数据 │ ├── remove_data_configs.json │ ├── src_videos/ │ └── tar_videos/ ├── replace/ # 对象替换任务数据 │ ├── replace_data_configs.json │ ├── src_videos/ │ └── tar_videos/ └── style/ # 视频风格化任务数据 ├── style_data_configs.json ├── src_videos/ └── tar_videos/

  • *_data_configs.json 文件存储了指令-视频的映射关系和元数据。

使用与评估

数据测试与可视化

  • 单任务测试:使用 reco_data_test_single.py 脚本。
  • 混合任务加载:使用 reco_data_test_mix_data.py 脚本,可按任意比例混合四种任务的数据。

评估流程

评估通过运行 bash run_eval_via_gemini.sh 启动,分为两个阶段:

  1. 逐维度评估:使用 Gemini-2.5-Flash-Thinking 作为 VLLM 评估器,从多个维度对编辑后的视频进行评分。
  2. 最终分数聚合:汇总评估结果,计算每个任务及整体的最终得分。

相关资源与引用

  • 论文地址:https://arxiv.org/abs/2512.17650
  • 项目主页:https://zhw-zhang.github.io/ReCo-page/
  • Hugging Face 数据仓库:https://huggingface.co/datasets/HiDream-ai/ReCo-Data 与 https://huggingface.co/datasets/HiDream-ai/ReCo-Bench
  • 模型权重与代码:计划在 2-3 周内开源。

引用格式

bibtex @article{reco, title={{Region-Constraint In-Context Generation for Instructional Video Editing}}, author={Zhongwei Zhang and Fuchen Long and Wei Li and Zhaofan Qiu and Wu Liu and Ting Yao and Tao Mei}, journal={arXiv preprint arXiv:2512.17650}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在视频编辑领域,高质量数据集的构建对于推动指令驱动的视频生成技术至关重要。ReCo-Data的构建过程系统性地涵盖了四大核心编辑任务:对象添加、对象移除、对象替换以及视频风格化。该数据集通过精心设计的流程,收集并整理了超过50万条指令-视频对,其中源视频素材主要来源于公开视频平台,确保了内容的多样性与真实性。针对局部编辑任务,研究团队利用先进的大语言模型自动生成与视频内容紧密相关的多样化编辑指令;而对于风格化任务,则采用了多种艺术风格对选定视频进行系统化处理,从而构建出一个规模庞大且任务覆盖全面的训练资源。
特点
ReCo-Data作为大规模指令视频编辑数据集,其显著特点在于任务定义的清晰性与数据质量的卓越性。数据集明确划分为四个独立的编辑任务,每种任务均配有结构化的配置文件,清晰定义了源视频、目标视频与对应指令的映射关系。数据集中所有视频对均未经过人工筛选或美化,随机采样的可视化示例真实反映了数据的整体质量与一致性。此外,数据集支持按单一任务加载或按任意比例混合多任务进行使用,为模型训练提供了高度的灵活性和可扩展性,能够有效支撑复杂视频编辑模型的开发与评估。
使用方法
为便于研究人员高效利用该数据集,ReCo-Data提供了清晰的使用路径。用户可通过提供的脚本便捷下载完整数据集,其目录结构经过精心组织,按任务分类存放视频文件与配置文件。数据集支持两种主要使用模式:一是通过指定任务的配置文件与视频文件夹路径,对单一任务进行测试与可视化;二是通过配置任务混合比例,灵活加载包含所有编辑任务的混合数据集进行模型训练。这种设计使得用户能够根据具体研究需求,轻松集成数据并开展后续的实验与分析工作。
背景与挑战
背景概述
在视频生成与编辑技术迅猛发展的背景下,针对指令驱动的视频编辑任务,高质量、大规模数据集的构建成为推动领域进步的关键。ReCo-Data数据集由HiDream-ai研究团队于2025年12月正式发布,其核心研究问题聚焦于如何通过区域约束的上下文生成技术,实现精准、可控的指令化视频编辑。该数据集涵盖了对象添加、移除、替换及视频风格化四大编辑任务,包含超过50万条指令-视频对,为训练和评估先进的视频编辑模型提供了坚实的资源基础,显著提升了模型在复杂场景下的理解与生成能力。
当前挑战
在视频编辑领域,模型需精准理解自然语言指令并对应到视频的时空区域,同时保持编辑后视频的时空一致性与视觉逼真度,这是一项极具复杂性的挑战。ReCo-Data在构建过程中,面临高质量视频对的大规模采集与标注难题,需确保源视频与目标视频在内容上的精确对齐。此外,为覆盖多样化的编辑任务与场景,数据需在指令的多样性、对象的复杂性以及风格的广泛性之间取得平衡,这对数据集的规模、质量与结构设计提出了极高要求。
常用场景
经典使用场景
在视频编辑与生成领域,ReCo-Data数据集为基于指令的区域约束视频编辑任务提供了核心训练资源。该数据集包含超过50万条指令-视频对,覆盖对象添加、移除、替换及视频风格化四大编辑任务,其大规模、高质量的特性使其成为训练和评估视频编辑模型的基准数据源。研究者通常利用该数据集训练模型理解自然语言指令,并精准操控视频中的特定区域,实现符合语义的视觉内容修改,从而推动可控视频生成技术的发展。
解决学术问题
ReCo-Data数据集有效应对了视频编辑研究中指令理解与区域精准操控的挑战。传统方法往往难以将文本指令映射到视频的时空维度,导致编辑结果偏离意图或破坏视觉连贯性。该数据集通过提供丰富的指令-视频对,支持模型学习语义与视觉区域的对应关系,解决了指令跟随、局部编辑保真度以及多任务统一建模等关键学术问题,为构建通用化、高精度的视频编辑系统奠定了数据基础。
衍生相关工作
围绕ReCo-Data数据集,已衍生出一系列经典研究工作。例如,基于该数据集训练的ReCo模型本身提出了区域约束的上下文生成框架,显著提升了指令视频编辑的精度与可控性;同时,配套的ReCo-Bench评估基准引入了大语言模型驱动的多维评价体系,为视频编辑质量提供了更可靠的衡量标准。这些工作共同推动了视频生成领域从粗粒度全局合成向细粒度指令编辑的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作