LoVoRA

Hugging Face2025-12-11 更新2025-12-12 收录

下载链接：

https://huggingface.co/datasets/cz-5f/LoVoRA

下载链接

链接失效反馈

资源简介：

LoVoRA数据集是一个高质量的基准数据集，专为文本引导、无需掩码的视频对象移除和添加而设计。该数据集基于高保真图像编辑对构建，并合成为连贯的视频序列，提供对齐的源-目标视频对、时间一致的空时掩码、详细的光流和遮挡图以及指令级编辑注释。数据集通过包括图像到视频转换、掩码生成、光流估计、使用流和遮挡图进行掩码传播以及高质量视频修复在内的强大流程构建。

创建时间：

2025-12-11

原始信息汇总

LoVoRA 数据集概述

基本信息

数据集名称: LoVoRA Dataset: Text-guided and Mask-free Video Object Removal and Addition
作者: Zhihan Xiao, Lin Liu, Yixin Gao, Xiaopeng Zhang, Haoxuan Che, Songping Mai, Qi Tian
许可证: mit
主要语言: en
标签: Video

数据集简介

LoVoRA 数据集是一个用于文本引导、无需掩码的视频对象移除与添加的高质量基准数据集。该数据集由高保真度的图像编辑对构建并合成为连贯的视频序列，提供对齐的源-目标视频对、时间一致的空时掩码、详细的光流与遮挡图以及指令级的编辑标注。

数据集构建流程

图像到视频（I2V）转换
从编辑后的图像生成掩码
光流估计
使用光流和遮挡图进行掩码传播
高质量视频修复

数据集对比

LoVoRA 在基于提示跟随（PF）和编辑质量（EQ）的 VLM 评估中取得了最先进的结果：

数据集	PF	EQ	生成基础
InsV2V	--	--	Prompt-to-Prompt adaptation
ICVE-SFT	--	--	Object removal + inpainting
Senorita-2M	3.533	3.883	Object removal + inpainting
InsViE-1M	3.133	3.667	Video inversion + reconstruction
Ditto	4.417	4.733	Depth-guided generation
LoVoRA	4.375	4.850	Optical-flow-based mask propagation

数据结构

每个样本包含以下组件： json { "tar_video": "src_video/XX/image_XXX.mp4", "src_video": "tar_video/XX/image_XXX.mp4", "object_file_path": "reference/XX/image_XXX/src_ref_image-image_reference.png", "text": "Change ...", "mask_file_path": "mask_video/XX/image_XXX.mp4" }

下载与使用

可通过以下方式下载整个数据集： python from datasets import load_dataset dataset = load_dataset("cz-5f/LoVoRA")

metadata.json 中的每条记录提供了视频、参考图像、掩码和文本指令的必要文件路径。实际的视频和掩码文件以上述目录结构中独立的 .mp4 资源形式存储。

应用场景

视频对象移除、添加与替换
空时掩码预测
基于光流的掩码传播

引用

若使用此数据集，请引用： bibtex @misc{xiao2025lovoratextguidedmaskfreevideo, title={LoVoRA: Text-guided and Mask-free Video Object Removal and Addition with Learnable Object-aware Localization}, author={Zhihan Xiao and Lin Liu and Yixin Gao and Xiaopeng Zhang and Haoxuan Che and Songping Mai and Qi Tian}, year={2025}, eprint={2512.02933}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.02933}, }

相关链接

数据集地址: https://huggingface.co/datasets/cz-5f/LoVoRA
项目主页: https://cz-5f.github.io/LoVoRA.github.io
论文: https://arxiv.org/abs/2512.02933
GitHub: https://github.com/cz-5f/LoVoRA.github.io

AI搜集汇总

数据集介绍

构建方式

在视频编辑与生成领域，高质量基准数据集的构建对于推动算法发展至关重要。LoVoRA数据集通过一套严谨的流程构建而成：首先从高质量图像编辑对出发，利用图像到视频转换技术合成连贯的视频序列；随后，基于编辑后的图像生成精确的时空掩码，并结合光流估计与遮挡图进行掩码传播，以确保视频对象在时间维度上的一致性；最终，通过先进的视频修复技术完善整体序列，形成包含源-目标视频对、掩码、光流及详细编辑指令的高质量对齐数据。

特点

该数据集的核心特征在于其针对文本引导且无需掩码的视频对象移除与添加任务而设计。它提供了严格对齐的源视频与目标视频对，并附有保持时间一致性的时空掩码、详细的光流与遮挡图，以及精确到指令级别的编辑标注。相较于同类基准，LoVoRA在编辑质量评估上取得了领先表现，其优势源于基于光流的掩码传播方法，为模型训练与评估提供了高保真且结构化的数据支持。

使用方法

研究人员可通过Hugging Face的`datasets`库便捷地加载LoVoRA数据集。数据集中的每个样本均以结构化JSON格式组织，包含了源视频、目标视频、参考图像、文本指令及掩码视频的文件路径。实际使用时，用户需依据`metadata.json`中的指引定位相应的MP4视频与掩码文件，从而将其应用于视频对象编辑、时空掩码预测或基于光流的掩码传播等具体研究任务中。

背景与挑战

背景概述

随着视频编辑技术的飞速发展，对视频内容进行精细化、语义驱动的对象级编辑已成为计算机视觉领域的前沿课题。LoVoRA数据集于2025年由Zhihan Xiao、Lin Liu等研究人员构建，其核心研究目标在于推动文本引导、无需掩码的视频对象移除与添加任务。该数据集通过高质量图像编辑对合成连贯视频序列，并提供了对齐的源-目标视频对、时空一致的掩码、光流与遮挡图以及指令级编辑标注，为视频局部编辑模型的训练与评估设立了新的基准，显著提升了编辑的语义可控性与时空一致性。

当前挑战

在视频对象编辑领域，核心挑战在于如何仅依据自然语言指令，精准定位并编辑动态场景中的目标对象，同时保持视频其余部分的时空连贯性与视觉真实性。LoVoRA数据集构建过程亦面临多重技术难题，包括如何从静态图像编辑对中生成高质量且时序合理的视频序列，以及如何通过光流估计与传播技术，在无需人工标注的情况下，自动化地生成精确且时间上一致的时空掩码。这些挑战共同指向了实现高效、精准、用户友好的智能视频编辑系统的关键瓶颈。

常用场景

经典使用场景

在计算机视觉领域，视频编辑技术正朝着更智能、更自然的方向演进。LoVoRA数据集作为文本引导且无需掩码的视频对象移除与添加的基准，其经典使用场景聚焦于训练和评估先进的视频生成模型。研究者利用该数据集提供的源-目标视频对、时空一致的掩码以及光流信息，开发能够理解自然语言指令并执行精确视频对象操作的算法，例如根据文本描述“移除画面中的行人”或“添加一只飞鸟”，实现高质量、时序连贯的视频编辑效果。

解决学术问题

视频内容编辑长期面临保持时序一致性与实现精准对象操控的双重挑战。LoVoRA数据集通过提供基于光流传播的掩码、详细的遮挡图以及指令级标注，系统性地解决了视频对象编辑中掩码生成依赖性强、编辑后画面时空连贯性不足等核心学术问题。该数据集为量化评估模型在指令跟随和编辑质量方面的性能提供了可靠基准，推动了文本引导视频编辑从依赖手工掩码向端到端、掩码自由的智能化范式转变，具有重要的方法论意义。

衍生相关工作

围绕LoVoRA数据集所确立的基准和提供的丰富资源，已衍生出一系列探索视频生成与编辑前沿的经典研究工作。这些工作主要集中于开发新型的神经网络架构，以更好地利用数据集中的光流与掩码信息进行时序建模，或设计更高效的训练策略来实现掩码自由的视频编辑。这些衍生研究不仅持续刷新着该数据集上的性能指标，也共同推动了文本到视频生成、视频修复等关联子领域的协同发展。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集