VPData
收藏Hugging Face2025-03-24 更新2025-03-25 收录
下载链接:
https://huggingface.co/datasets/TencentARC/VPData
下载链接
链接失效反馈官方服务:
资源简介:
VideoPainter是一个用于任意长度视频修复和编辑的框架,通过即插即用的上下文控制,实现了高效的视频处理。该项目包含两个数据集,VPData是包含精确分割掩码和密集视频字幕的最大的视频修复数据集,VPBench则是用于视频修复训练和评估的基准数据集。
创建时间:
2025-03-10
原始信息汇总
数据集概述:VPData
基本信息
- 数据集名称:VPData
- 发布机构:TencentARC
- 语言:英语
- 标签:视频、视频修复、视频编辑
- 数据集状态:正在上传中(包含390K掩码序列),预计2-3天完成
数据集内容
数据集用途
- 主要用途:视频修复和编辑的大规模训练与评估
- 应用场景:
- 视频修复
- 视频编辑
- 视频编辑对数据生成
数据集结构
|-- data |-- davis |-- JPEGImages_432_240 |-- test_masks |-- davis_caption |-- test.json |-- train.json |-- videovo/raw_video |-- 000005000 |-- 000005000000.0.mp4 |-- 000005000001.0.mp4 |-- ... |-- pexels/pexels/raw_video |-- 000000000 |-- 000000000000_852038.mp4 |-- 000000000001_852057.mp4 |-- ... |-- video_inpainting |-- videovo |-- 000005000000/all_masks.npz |-- 000005000001/all_masks.npz |-- ... |-- pexels |-- ... |-- pexels_videovo_train_dataset.csv |-- pexels_videovo_val_dataset.csv |-- pexels_videovo_test_dataset.csv |-- our_video_inpaint.csv |-- our_video_inpaint_long.csv |-- our_video_edit.csv |-- our_video_edit_long.csv |-- pexels.csv |-- videovo.csv
相关资源
搜集汇总
数据集介绍

构建方式
VPData作为当前规模最大的视频修复数据集,其构建过程体现了严谨的工程化思维。研究团队通过自动化数据管道整合了来自Videovo和Pexels平台的39万条视频片段,采用先进的视觉理解模型生成精确的物体分割掩码序列,并辅以稠密的视频描述文本标注。数据集构建中创新性地引入了多模态标注策略,通过动态掩码变换技术(包括笔刷、矩形、椭圆等多样化掩码生成方式)增强数据多样性,同时保持原始视频的时空连贯性。
特点
该数据集的核心价值在于其规模与质量的平衡,提供480×720分辨率、8FPS的视频片段及对应的高精度二进制掩码。不同于传统视频修复数据集,VPData特别设计了长序列处理能力,支持任意长度视频的修复任务。数据分布覆盖自然场景、人物动作、物体运动等多样化内容,配合结构化存储的JSON元数据文件,为模型训练提供丰富的语义上下文信息。值得注意的是,数据集采用分离式存储策略,原始视频与标注数据通过标准化目录结构关联,兼顾数据版权合规性与研究可用性。
使用方法
使用VPData需遵循模块化数据加载流程,通过官方提供的Python脚本自动完成视频与掩码序列的对齐。典型应用场景包括:1)基于条件扩散模型的视频修复训练,需配置data_utils中的预处理管道;2)长视频修复任务的基准测试,可结合VPBench中的评估指标;3)视频编辑应用的迁移学习,利用数据集中的语义标注实现跨任务应用。研究人员可通过HuggingFace平台分片下载数据集,或通过torchvision.datasets接口直接加载,注意需预先安装FFmpeg等视频处理依赖库。
背景与挑战
背景概述
VPData数据集由腾讯ARC实验室与香港中文大学等机构的研究团队于2025年发布,旨在推动视频修复与编辑领域的发展。该数据集作为论文《VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control》的核心组成部分,聚焦于解决视频修复任务中背景上下文控制的难题。研究团队创新性地提出双流架构,通过分离上下文编码与内容生成模块,显著降低了模型复杂度。VPData包含超过39万条视频片段,每条均配备精确分割掩码和密集视频描述,是目前规模最大的视频修复专用数据集,为视频生成领域的模型训练与评估提供了重要基础。
当前挑战
视频修复领域面临的核心挑战在于如何保持长视频序列的时空一致性,以及复杂场景下被遮挡内容的合理生成。VPData构建过程中需解决多维度难题:其一,大规模视频标注需平衡掩码精度与数据多样性,动态物体边缘的精确标注消耗大量计算资源;其二,视频描述生成要求语义连贯性,跨帧物体跟踪与属性一致性维护存在技术瓶颈;其三,数据清洗环节需处理互联网原始视频的版权合规性、分辨率差异及内容敏感性等问题。此外,为支持任意长度视频修复,数据集需包含不同时长片段的时空对应关系,这对视频采样策略提出了更高要求。
常用场景
经典使用场景
在视频修复与编辑领域,VPData数据集凭借其390K条精确标注的掩码序列,为视频修复任务提供了丰富的训练与评估资源。该数据集广泛应用于视频内容修复、目标移除等场景,通过大规模数据支持,显著提升了模型在复杂场景下的修复能力。
解决学术问题
VPData数据集解决了视频修复领域长期存在的数据稀缺问题,为研究者提供了高质量的标注数据。其通过密集视频标注和精确分割掩码,有效支持了视频修复模型的训练与评估,推动了视频修复技术在语义一致性和时间连贯性方面的研究进展。
衍生相关工作
基于VPData数据集,研究者们开发了多种先进的视频修复与编辑模型,如VideoPainter等。这些工作不仅推动了视频修复技术的发展,还衍生出了视频编辑、内容生成等多项应用,进一步扩展了该数据集在学术与工业界的影响力。
以上内容由遇见数据集搜集并总结生成



