InsViE-1M

Name: InsViE-1M
Creator: 香港理工大学
Published: 2025-03-26 15:30:58
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

https://github.com/langmanbusi/InsViE

下载链接

链接失效反馈

官方服务：

资源简介：

InsViE-1M是一个包含100万高质量训练三元组（源视频、编辑视频、指令）的指令式视频编辑数据集。该数据集由香港理工大学和OPPO研究院共同构建，旨在提高指令式视频编辑模型的性能。数据集通过精心设计的两阶段编辑-过滤管道构建而成，包括从现实世界视频、图像编辑对以及真实图像生成的静态视频三种来源生成的三元组。数据集的创建过程涉及使用大型视觉语言模型生成指令，以及采用基于视频生成模型的方法来编辑和过滤视频，以确保数据的高质量和适用性。该数据集的应用领域主要是为了解决指令式视频编辑的问题，提升编辑模型的性能和泛化能力。

InsViE-1M is an instructional video editing dataset containing 1 million high-quality training triples (source video, edited video, instruction). This dataset was jointly constructed by The Hong Kong Polytechnic University and OPPO Research Institute, aiming to improve the performance of instructional video editing models. It is built via a meticulously designed two-stage editing-filtering pipeline, which generates training triples from three sources: real-world videos, video-image edit pairs, and static videos generated from real images. The dataset creation process involves leveraging large vision-language models to generate editing instructions, as well as adopting video generation model-based methods to edit and filter videos, ensuring the high quality and applicability of the collected data. The primary applications of this dataset focus on resolving the challenges in instructional video editing, and enhancing the performance and generalization capability of video editing models.

提供机构：

香港理工大学

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

InsViE-1M数据集通过精心设计的两阶段编辑-过滤流程构建而成。在第一阶段，研究人员首先筛选高分辨率的真实世界视频和图像作为源数据，然后利用强大的图像编辑模型对视频的首帧进行编辑，并通过调整分类器自由引导（CFG）参数生成多个编辑样本。这些样本随后由GPT-4o根据一系列严格的评估指标进行筛选，以确保编辑质量。在第二阶段，编辑后的首帧被传播到后续帧以生成编辑后的视频，并再次通过GPT-4o和光流端点误差（EPE）进行过滤，以确保帧质量和运动一致性。此外，数据集还包含从高质量图像编辑对生成的视频编辑三元组。

特点

InsViE-1M数据集以其高质量和大规模著称，包含100万个视频编辑三元组（源视频、编辑视频、指令）。其特点包括高分辨率（1024×576）、长视频持续时间（25帧）以及多样化的编辑类型。数据集通过两阶段过滤流程确保了编辑质量，并利用GPT-4o和光流评估来保证内容的连贯性和运动一致性。此外，数据集还包含从静态图像生成的视频三元组，进一步丰富了数据的多样性。

使用方法

InsViE-1M数据集可用于训练基于指令的视频编辑模型。研究人员可以采用多阶段学习策略，逐步提升模型的指令跟随和编辑能力。具体而言，首先在数据集的第一阶段子集（Set-S1）上进行训练，以学习基本的编辑能力；随后在高质量子集（Set-S2）上微调模型以提升编辑质量；最后通过引入更多静态视频对（Set-S3）来增强视频的视觉保真度。在推理阶段，模型可根据输入的视频和指令生成编辑后的视频，并通过不同的条件自由引导（CFG）参数调整输出效果。

背景与挑战

背景概述

InsViE-1M数据集由香港理工大学和OPPO研究院的研究团队于2025年提出，旨在解决基于指令的视频编辑任务中高质量训练数据稀缺的问题。该数据集包含100万组高质量的三元组（源视频、编辑后视频、编辑指令），其核心创新在于采用了两阶段编辑-过滤流水线，通过GPT-4o和光流评估确保编辑质量。作为首个基于真实世界高清视频（1080p）构建的大规模指令编辑数据集，InsViE-1M显著提升了编辑模型的指令遵循能力和时空一致性表现，推动了交互式视频编辑技术的发展。

当前挑战

在领域问题层面，InsViE-1M需解决三大挑战：1) 现有数据集普遍存在的低分辨率（256×256）、短时长（8-16帧）问题限制了编辑模型的泛化能力；2) 合成视频与真实场景的域差距导致模型实际应用效果不佳；3) 传统方法依赖人工标注或随机参数生成，难以保证编辑质量的一致性。在构建过程中，研究团队面临双重挑战：1) 需设计自动化评估体系（GPT-4o+光流EPE）替代人工质检，解决百万级数据质量控制的效率问题；2) 编辑传播时需平衡首帧编辑强度与后续帧运动连续性，避免出现闪烁伪影。

常用场景

经典使用场景

在计算机视觉领域，InsViE-1M数据集为基于指令的视频编辑任务提供了高质量的基准数据。该数据集通过精心设计的编辑-过滤流程，生成了100万条高质量的三元组（源视频、编辑后视频、指令），特别适用于训练和评估视频编辑模型。其高分辨率和长视频持续时间使得该数据集在复杂的视频编辑任务中表现出色，成为研究者验证模型性能的首选资源。

解决学术问题

InsViE-1M数据集有效解决了现有视频编辑数据集中普遍存在的低分辨率、短时长和编辑质量不足等问题。通过引入两阶段编辑-过滤流程，该数据集显著提升了编辑视频的视觉质量和时间一致性，为训练鲁棒的指令驱动视频编辑模型提供了可靠的数据支持。其大规模高质量数据还推动了视频编辑领域在指令理解、编辑效果保持等关键问题上的研究进展。

衍生相关工作

围绕InsViE-1M数据集，研究者已开展多项创新工作。基于该数据集训练的多阶段学习策略InsViE模型首次将视频生成模型应用于指令编辑任务，显著提升了时间一致性。此外，该数据集还启发了基于光学流的质量评估方法、GPT-4o辅助的自动筛选流程等创新技术，为视频编辑领域建立了新的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集