LoVoRA Dataset

github2025-12-04 更新2025-12-05 收录

下载链接：

https://github.com/cz-5f/LoVoRA.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

LoVoRA数据集提供了高分辨率、基于指令的视频编辑对，具有强的时间对齐。数据集通过图像到视频（I2V）转换、从编辑图像生成掩码、光流估计、掩码传播和高质量视频修复等阶段构建。

The LoVoRA dataset provides high-resolution, instruction-based video editing pairs with strong temporal alignment. The dataset is constructed through stages including image-to-video (I2V) conversion, mask generation from edited images, optical flow estimation, mask propagation, and high-quality video inpainting.

创建时间：

2025-12-03

原始信息汇总

LoVoRA 数据集概述

数据集基本信息

数据集名称： LoVoRA Dataset
项目名称： LoVoRA: Text-guided and Mask-free Video Object Removal and Addition with Learnable Object-aware Localization
数据集地址： https://huggingface.co/datasets/LoVoRA (即将发布)
项目页面： https://cz-5f.github.io/LoVoRA.github.io
相关论文： https://arxiv.org/abs/2512.02933

数据集用途与特点

核心用途：为文本引导、无需掩码的视频对象移除与添加任务提供训练与评估数据。
关键特点：
- 提供高分辨率、基于指令的视频编辑配对数据。
- 数据具有强时间对齐性。
- 基于光流的掩码传播方法生成。

数据集生成流程

数据集通过以下阶段构建：

图像到视频（I2V）转换。
从编辑后的图像生成掩码。
光流估计。
掩码传播。
高质量视频修复。

数据集性能对比

LoVoRA 数据集在视觉语言模型（VLM）评估中取得了先进的性能，指标包括提示跟随（PF）和编辑质量（EQ）。

数据集	提示跟随 (PF)	编辑质量 (EQ)	生成基础
Senorita-2M	3.533	3.883	对象移除 + 修复
InsViE-1M	3.133	3.667	视频反转 + 重建
Ditto	4.417	4.733	深度引导生成
LoVoRA (Ours)	4.375	4.850	基于光流的掩码传播

相关方法框架

核心框架： LoVoRA 框架包含一个可学习的对象感知定位机制和一个扩散掩码预测器，实现端到端的视频编辑。
训练数据：该数据集用于训练所提出的框架，使其仅使用文本提示和原始视频即可执行编辑。

搜集汇总

数据集介绍

构建方式

在视频编辑领域，高质量数据集的构建是推动算法创新的基石。LoVoRA数据集的构建采用了一套严谨的多阶段合成流程，其核心在于将静态图像编辑对转化为具有时序一致性的视频编辑数据。该流程起始于图像到视频的转换，随后基于编辑后的图像生成精确的对象掩码，并利用光流估计技术实现掩码在视频序列中的传播，最终通过先进的视频修复技术生成高质量的编辑结果。这一方法确保了数据对之间严格的时间对齐，为模型学习时空编辑区域提供了可靠的基础。

特点

LoVoRA数据集在视频对象编辑领域展现出显著的优势。其最突出的特点在于提供了高分辨率且基于指令的编辑数据对，这些数据对在时间维度上保持了高度的一致性。与同类数据集相比，该数据集在编辑质量评估指标上达到了领先水平，这得益于其构建过程中采用的基于光流的掩码传播技术。该技术能够更准确地模拟对象在视频中的运动轨迹，从而生成空间精度更高、时序连贯性更强的编辑结果，为训练无需辅助掩码的端到端视频编辑模型提供了关键支持。

使用方法

该数据集主要服务于文本引导的视频对象移除与添加任务的研究与模型训练。使用者可通过提供的文本提示词与原始视频序列，直接训练或评估如LoVoRA框架般的端到端编辑模型。模型能够学习自动定位密集的时空编辑区域，而无需在推理阶段依赖额外的对象掩码或参考图像。数据集的结构旨在促进模型理解并执行复杂的语义编辑指令，推动视频编辑技术向更高自动化与精准度的方向发展。

背景与挑战

背景概述

在视频内容编辑领域，实现精准且时序一致的对象操控一直是核心研究难题。LoVoRA数据集由Zhihan Xiao、Lin Liu等研究人员于近期构建，旨在支撑文本引导、无需掩码的视频对象移除与添加任务。该数据集通过创新的光学流掩码传播技术生成高质量、时序对齐的编辑视频对，其评估指标在编辑质量上达到领先水平，为视频生成与编辑模型提供了关键的训练与基准数据，推动了视频语义编辑技术向更高效、更自然的方向发展。

当前挑战

该数据集致力于解决视频对象编辑中保持高空间精度与强时序一致性的双重挑战。具体而言，在领域层面，如何仅依据文本指令精确界定并操控动态场景中的对象，同时避免引入伪影或时序抖动，是模型面临的主要难题。在构建过程中，挑战体现在从静态图像编辑对合成高质量视频数据流的复杂性，包括确保跨帧的掩码传播准确性、维持编辑区域边界的自然度，以及通过视频修复技术实现被移除对象区域的无缝填充，这些步骤均需精细的算法设计与大量的计算资源投入。

常用场景

经典使用场景

在视频内容编辑领域，LoVoRA数据集以其高分辨率、基于指令的视频编辑对和卓越的时间对齐特性，为文本引导的无掩码视频对象移除与添加任务提供了核心训练资源。该数据集通过光学流引导的掩码传播流程构建，能够精准模拟真实编辑场景，常被用于训练和评估视频编辑模型在复杂动态场景下的空间准确性与时间一致性表现，成为推动视频生成与编辑技术发展的关键基准。

解决学术问题

LoVoRA数据集有效应对了视频编辑研究中长期存在的两大挑战：一是无需辅助掩码或参考图像即可实现高精度对象级编辑，降低了应用门槛；二是通过可学习的对象感知定位机制，解决了编辑区域在时空维度上保持连贯性的难题。该数据集为探索端到端的视频编辑范式提供了高质量数据支撑，显著提升了模型在遵循文本指令与保持编辑质量方面的性能，推动了视频语义编辑从依赖手工标注向自动化、智能化方向的演进。

衍生相关工作

围绕LoVoRA数据集及其提出的框架，已衍生出一系列专注于视频对象编辑的经典研究工作。这些工作主要沿两个方向深化：一是改进基于扩散模型的掩码预测机制，以提升编辑区域的时空精度；二是探索更高效的训练范式，将光学流估计、掩码传播与生成模型进行更紧密的耦合。这些研究共同推动了文本引导视频编辑这一子领域的快速发展，并为后续基于大模型的视频理解与生成任务提供了重要的技术参考与架构灵感。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集