PE Video Dataset (PVD)

Name: PE Video Dataset (PVD)
Creator: Meta FAIR
Published: 2025-04-18 01:59:57
License: 暂无描述

arXiv2025-04-18 更新2025-04-19 收录

下载链接：

https://ai.meta.com/datasets/pe-video/

下载链接

链接失效反馈

官方服务：

资源简介：

PE视频数据集（PVD）是由Meta FAIR推出的一种创新合成视频文本数据集，包含100万种不同的视频和12万种由人工精炼的注释。该数据集通过结合视频帧和相应的文本描述，旨在为视觉语言对比训练提供高质量、对齐的数据，以促进大规模视觉编码器的训练和研究。

The PE Video Dataset (PVD) is an innovative synthetic video-text dataset released by Meta FAIR. It comprises 1 million unique videos and 120,000 manually refined annotations. By combining video frames with their corresponding textual descriptions, this dataset aims to provide high-quality, aligned data for vision-language contrastive training, thereby advancing the training and research of large-scale visual encoders.

提供机构：

Meta FAIR

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

PE Video Dataset (PVD) 是一个高质量的视频数据集，包含100万条多样化的视频，其中12万条视频经过人工精修的详细标注。数据集的构建过程分为三个阶段：首先，使用基础视频描述模型PLM生成初始描述；其次，通过人工标注者对描述进行精修和验证；最后，使用大型语言模型（如Llama 3.3 70B）对视频描述、帧描述和视频元数据进行综合总结，生成最终的视频描述。这一过程确保了数据的高质量和多样性。

特点

PVD数据集的特点在于其多样性和高质量标注。数据集覆盖了多种场景和动作，包括第一人称和第三人称视角，确保数据的广泛覆盖。此外，12万条视频的标注经过人工精修，去除了模型生成的幻觉信息，并添加了缺失的动作细节，使得描述更加准确和丰富。数据集还提供了两种标注版本：一种是适合CLIP风格训练的简洁描述，另一种是适合细粒度视频理解的详细描述。

使用方法

PVD数据集可用于多种视频理解和生成任务，如视频分类、检索和描述生成。数据集中的15K视频被用作测试集，构建了一个新的视频检索基准（PVD Benchmark），用于评估细粒度的视频-描述对齐。此外，数据集还可用于训练和评估多模态大型语言模型（MLLM），提升其在视频理解任务中的表现。

背景与挑战

背景概述

PE Video Dataset (PVD) 是由Meta FAIR团队于2025年推出的一个大规模视频理解数据集，作为Perception Encoder (PE)研究项目的重要组成部分。该数据集包含100万条多样化视频片段，其中12万条经过人工精细化标注，总时长超过4600小时。PVD的创新性体现在其通过合成标注与人工校验相结合的方式构建高质量视频-文本对，旨在解决视频-语言对齐数据稀缺的核心问题。数据集覆盖手部动作、物体交互、食品制作等10个动态场景类别，为视频检索、问答等任务提供了细粒度评估基准。作为首个基于数据引擎范式构建的大规模视频数据集，PVD通过PLM视频描述生成模型与Llama 3.3 70B的摘要优化技术，显著提升了视觉-语言模型的跨模态对齐能力。

当前挑战

PVD面临的挑战主要体现在两个方面：在领域问题层面，需解决视频内容动态性带来的时空对齐难题，包括复杂动作序列的语义解析、多物体交互关系的准确描述等；在构建过程层面，面临视频标注成本高昂的瓶颈，需平衡自动化合成标注的效率与人工校验的质量控制。具体挑战包括：(1) 视频帧间语义连贯性的保持，(2) 动态场景中细粒度动作的精准描述，(3) 跨模态对齐中噪声过滤与信息密度平衡，(4) 大规模视频数据分布式处理的工程优化。数据集通过构建三阶段视频数据引擎（基础描述生成-人工精修-LLM摘要优化）的创新流程应对这些挑战，最终在MSR-VTT等基准上实现7.7-15.3%的检索性能提升。

常用场景

经典使用场景

PE Video Dataset (PVD) 在计算机视觉领域被广泛应用于视频理解任务，特别是视频分类、检索和问答等场景。该数据集通过精心设计的视频数据引擎生成高质量的视频-文本对齐数据，为视频编码器的训练提供了丰富的监督信号。在零样本视频分类和检索任务中，PVD 展现出了卓越的性能，成为评估视频理解模型的重要基准。

实际应用

在实际应用中，PVD 支持构建强大的视频理解系统，如智能视频检索、自动视频标注和交互式视频问答等场景。其丰富的运动中心视频和多样化场景覆盖使其特别适合需要细粒度视频理解的应用，如安防监控、内容审核和智能教育等领域。数据集发布的120K人类精修标注进一步提升了实际应用中的可靠性。

衍生相关工作

PVD 直接支撑了Perception Encoder系列模型的开发，特别是其视频理解能力的提升。基于该数据集的工作包括视频数据引擎的构建、多模态大语言模型的视频适配等。相关衍生研究还探索了视频帧特征聚合、跨模态对比学习等技术，推动了视频-语言联合表示学习领域的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集