OpenVE-3M

Name: OpenVE-3M
Creator: 浙江大学, ByteDance
Published: 2025-12-17 00:37:57
License: 暂无描述

arXiv2025-12-17 更新2025-12-10 收录

下载链接：

https://lewandofskee.github.io/projects/OpenVE

下载链接

链接失效反馈

官方服务：

资源简介：

OpenVE-3M是由浙江大学与字节跳动联合发布的大规模高质量视频编辑指令数据集，包含300万条样本，涵盖空间对齐（如全局风格迁移、局部修改）与非空间对齐（如创意编辑）共8个子类别。数据源自Open-Sora-Plan等开源高清视频库，通过多模态大模型（如GPT-4o）生成编辑指令，并采用深度估计、目标分割等技术确保时空一致性。经三阶段严格筛选（预处理、分类生成、质量过滤），其平均指令长度（40.6词）和视觉质量评分（3.86）均显著优于现有数据集，适用于训练视频编辑模型以解决复杂时空编辑任务。

OpenVE-3M is a large-scale high-quality video editing instruction dataset jointly released by Zhejiang University and ByteDance. It contains 3 million samples, covering 8 sub-categories including spatial alignment (such as global style transfer and local modification) and non-spatial alignment (such as creative editing). The dataset is derived from open-source high-definition video libraries such as Open-Sora-Plan. Editing instructions are generated using multimodal large language models (e.g., GPT-4o), and techniques including depth estimation and object segmentation are employed to guarantee spatio-temporal consistency. It has undergone three-stage rigorous screening: preprocessing, classification generation, and quality filtering. Both its average instruction length (40.6 words) and visual quality score (3.86) significantly outperform those of existing datasets, and it is applicable for training video editing models to address complex spatio-temporal editing tasks.

提供机构：

浙江大学, ByteDance

创建时间：

2025-12-09

原始信息汇总

数据集概述：OpenVE-3M

基本信息

数据集名称：OpenVE-3M
核心描述：一个开源、大规模、高质量、多类别且平衡的指令引导视频编辑数据集。
主要用途：专为指令引导视频编辑（IVE）设计。
数据规模：构建过程消耗超过10,000 GPU天。

类别构成

数据集包含八个主要编辑类别，分为两大类：

空间对齐编辑

全局风格：改变视频的整体风格，同时保留原始运动和细节。
- 包含18种常见风格（如吉卜力、油画）。
- 包含4种一天中的时间（如早晨、蓝色时刻）。
- 包含3种天气条件（如晴朗、雨天、雪天）。
背景更换：针对具有清晰前景-背景区分的视频，将背景更换为各种场景。
局部更改：包括对象转换、风格修改、颜色更改和年龄进展等一系列编辑。
局部移除：移除视频中的任意对象。
局部添加：向视频中添加任意对象。
字幕编辑：包含添加、移除和修改字幕的任务，具有九种变体（三种位置：顶部、中部、底部）。

非空间对齐编辑

摄像机多镜头编辑：编辑视频以在同一主体的特写、中景和广角镜头之间切换，总共包含六种过渡类型。
创意编辑：根据创意指令编辑对象，主体的动作可能发生显著变化。

关联资源

论文：📄 Paper (Under Review)
代码：💻 Code (Under Review)
模型：🤗 Models (Under Review)
数据集：🎬 Dataset (Under Review)
基准测试：📊 Benchmark (Under Review)

基准测试：OpenVE-Bench

构成：包含431个视频-编辑对。
覆盖范围：涵盖多样化的编辑任务。
评估指标：包含三个与人类判断高度一致的关键指标。

训练模型：OpenVE-Edit

模型规模：50亿参数。
性能：在OpenVE-Bench上设立了新的最先进水平，超越了所有先前的开源模型，包括一个140亿参数的基线模型。

搜集汇总

数据集介绍

构建方式

在指令引导视频编辑领域，高质量数据集的构建面临时空一致性的双重挑战。OpenVE-3M通过精心设计的三阶段流水线应对这一难题：首先，从开源高质量视频库中提取片段，并利用多模态大语言模型、检测分割模型及深度估计工具进行视频预处理，生成丰富的描述与结构化信息；随后，基于分类学指导的生成策略，针对八种编辑类别分别调用图像编辑模型、图像到视频生成模型等，合成初步的编辑视频对；最终，通过先进的多模态大语言模型对生成对进行自动化评分与过滤，严格依据指令遵循度、一致性及视觉质量等三维度指标，保留评分高于阈值的高质量样本，从而确保数据集的整体优越性。

特点

OpenVE-3M作为大规模指令引导视频编辑数据集，其显著特征体现在规模、多样性与质量的协同提升。该数据集包含三百万个样本，涵盖空间对齐与非空间对齐两大类别，具体细分为全局风格转换、背景替换、局部修改等八种子类型，编辑任务分布均衡。与现有开源数据集相比，其平均指令长度达到40.6词，为模型提供了更精确的编辑指导；视频分辨率统一为720P，帧数范围在65至129之间，保障了高清晰度与时序丰富性。尤为突出的是，经过严格过滤流程，数据集的平均编辑质量评分高达3.86，在指令遵循度、时空一致性及视觉稳定性方面均设立了新的标杆。

使用方法

OpenVE-3M数据集为训练与评估指令引导视频编辑模型提供了核心资源。研究人员可直接利用其大规模、高质量的编辑视频对进行模型训练，尤其适用于基于扩散变换器或混合专家架构的端到端视频编辑网络。数据集的分类结构支持针对特定编辑类型的专业化训练，亦可通过统一框架探索多任务学习。为促进公平比较，该工作同步提出了OpenVE-Bench基准，包含431个涵盖所有类别的视频对，并定义了指令遵循度、一致性及视觉质量三项与人类评判高度对齐的评估指标。用户可在该基准上测试模型性能，或借鉴其评估协议开发新的评测体系，推动领域内模型能力的客观衡量与持续优化。

背景与挑战

背景概述

随着指令引导图像编辑技术的蓬勃发展，高质量开源数据集不断涌现，然而在视频编辑领域，大规模、高质量的指令引导数据集仍处于稀缺状态。为填补这一空白，浙江大学与字节跳动的研究团队于2025年12月联合发布了OpenVE-3M数据集。该数据集旨在解决指令引导视频编辑模型训练数据匮乏的核心问题，涵盖了空间对齐编辑与非空间对齐编辑两大类别，共包含八个细分子类。OpenVE-3M以其300万样本的规模、40.6词的平均指令长度以及3.86的平均编辑质量得分，显著超越了现有开源数据集，为视频生成与编辑领域的研究提供了关键的数据基础设施，推动了高效、可控视频编辑模型的发展。

当前挑战

OpenVE-3M数据集致力于解决指令引导视频编辑这一复杂任务的挑战，其核心在于如何根据自然语言指令对视频内容进行精确、一致且高质量的修改。这要求模型不仅需理解复杂的空间编辑指令，还必须维持跨帧的时序一致性，避免出现闪烁、抖动或运动断裂。在数据集构建过程中，挑战尤为突出：首先，生成高质量编辑视频对需要协调多种前沿模型（如MLLM、IIE模型、I2V模型），流程复杂且计算成本高昂；其次，确保编辑结果在空间对齐任务中完美保持原始运动，在非对齐任务中引入合理新运动的同时维持主体一致性，是技术上的重大难点；最后，设计有效的自动化过滤流程以剔除低质量样本，保证数据集的整体洁净度与可用性，构成了数据集质量控制的关键挑战。

常用场景

经典使用场景

在指令引导的视频编辑领域，OpenVE-3M数据集作为大规模、高质量的训练资源，其经典使用场景在于为视频编辑模型提供多样化的监督信号。该数据集通过精心设计的八种编辑类别，包括全局风格迁移、背景替换、局部对象增删改以及创意编辑等，覆盖了从空间对齐到非空间对齐的广泛任务。研究人员利用这些带有详细文本指令的视频对，能够训练模型理解复杂编辑意图，并在保持时空一致性的前提下生成符合要求的编辑结果，从而推动指令引导视频编辑技术向更高保真度与更强泛化能力发展。

衍生相关工作

围绕OpenVE-3M数据集，已衍生出一系列具有影响力的研究工作。其配套提出的OpenVE-Edit模型，采用多专家混合连接器与扩散变换器架构，以仅50亿参数实现了超越140亿参数基线的性能，为高效视频编辑模型设计树立了新范式。同时，研究团队构建的OpenVE-Bench评测基准，涵盖431个视频编辑对与多维度评估指标，为领域内模型性能的客观比较提供了统一平台。这些工作共同推动了指令引导视频编辑从数据构建、模型训练到评估体系的完整技术链条发展，激励了后续如多任务统一编辑架构、跨模态指令理解等方向的深入探索。

数据集最近研究