Jingkang/PVSG

Name: Jingkang/PVSG
Creator: Jingkang
Published: 2023-11-29 17:52:11
License: 暂无描述

Hugging Face2023-11-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Jingkang/PVSG

下载链接

链接失效反馈

官方服务：

资源简介：

我们精心收集了400个视频，每个视频都包含动态场景和丰富的逻辑推理内容。这些视频平均长度为76.5秒（5 FPS）。数据集包括来自VidOR的289个视频、来自EpicKitchen的55个视频以及来自Ego4D的56个视频。

提供机构：

Jingkang

原始信息汇总

数据集概述

数据来源

VidOR: 289个视频
EpicKitchen: 55个视频
Ego4D: 56个视频

数据集规模

总共收集了400个视频，每个视频平均时长为76.5秒（5 FPS）。

数据结构

数据集文件组织结构如下：

├── data_zip │ ├── Ego4D │ │ ├── ego4d_masks.zip │ │ └── ego4d_videos.zip │ ├── EpicKitchen │ │ ├── epic_kitchen_masks.zip │ │ └── epic_kitchen_videos.zip │ ├── VidOR │ │ ├── vidor_masks.zip │ │ └── vidor_videos.zip │ └── pvsg.json

数据处理

使用unzip_and_extract.py脚本解压文件并从视频中提取帧。
解压后的数据目录结构如下：

data ├── ego4d │ ├── frames │ ├── masks │ └── videos ├── epic_kitchen │ ├── frames │ ├── masks │ └── videos ├── vidor │ ├── frames │ ├── masks │ └── videos └── pvsg.json

使用建议

建议用户使用./notebooks/Visualize_Dataset.ipynb快速熟悉PVSG数据集。

引用

更多关于数据集方法的信息，请参考论文：Panoptic Video Scene Graph Generation，arXiv:2310.15166。

搜集汇总

数据集介绍

构建方式

在视频理解与场景图生成领域，PVSG数据集通过精心筛选与整合，构建了一个包含400段动态场景视频的集合，平均时长约76.5秒，帧率为5 FPS。这些视频源自三个权威数据集：VidOR贡献了289段，EpicKitchen提供了55段，Ego4D则补充了56段，确保了内容的多样性与逻辑推理的丰富性。数据集的构建过程注重视频的动态特性与场景复杂性，为后续的标注与分析奠定了坚实基础。

特点

PVSG数据集的核心特点在于其聚焦于动态场景中的全景视频场景图生成，视频内容富含逻辑推理元素，覆盖了日常活动、厨房操作及第一人称视角等多种情境。数据集不仅提供了原始视频，还附带了对应的掩码标注，支持细粒度的物体与关系解析。这种结构化的标注方式使得该数据集在视频语义理解与场景图生成任务中具有独特的应用价值，能够推动计算机视觉领域对动态场景的深层理解。

使用方法

使用PVSG数据集时，用户需首先克隆指定的GitHub仓库，并按照提供的目录结构组织文件，将数据集置于`data_zip`文件夹内。随后，运行`unzip_and_extract.py`脚本解压视频与掩码文件，并提取视频帧，最终形成包含`frames`、`masks`和`videos`子目录的数据结构。为快速熟悉数据集，建议利用附带的Jupyter笔记本进行可视化探索，从而直观理解数据内容与标注格式，为后续的模型训练与评估做好准备。

背景与挑战

背景概述

在计算机视觉领域，视频场景理解正逐步从简单的对象识别迈向复杂的语义关系解析。PVSG数据集由Jingkang团队于2023年创建，其核心研究问题聚焦于全景视频场景图生成，旨在从动态视频中提取对象、属性及其交互关系，构建结构化的语义表示。该数据集整合了VidOR、EpicKitchen和Ego4D等多个来源的400段视频，平均时长76.5秒，内容涵盖动态场景与逻辑推理，为视频语义分析、智能推理等任务提供了重要支撑，推动了视频理解技术向更高层次的认知智能发展。

当前挑战

PVSG数据集致力于解决视频场景图生成这一复杂问题，其挑战在于动态场景中对象关系的时序建模与逻辑推理，需准确捕捉视频帧间的语义连贯性与交互演变。构建过程中，数据整合面临多源异构视频的标注对齐与格式统一难题，例如不同数据集的标注标准与时空分辨率差异；同时，全景分割掩码的生成与视频帧提取需处理大规模计算与存储开销，确保数据质量与一致性成为关键瓶颈。

常用场景

经典使用场景

在计算机视觉领域，视频场景理解正从静态图像分析迈向动态时空建模。PVSG数据集通过整合来自VidOR、EpicKitchen和Ego4D的400段富含逻辑推理内容的视频，为全景视频场景图生成任务提供了标准基准。该数据集最经典的使用场景是训练和评估能够同时解析视频中物体、背景及其复杂时空关系的模型，推动视频语义理解从对象检测向结构化关系推理的跨越。

解决学术问题

传统视频分析多聚焦于动作识别或目标跟踪，难以刻画物体间持续演变的交互关系。PVSG数据集通过提供密集的全景掩码和时序标注，系统性地解决了视频中跨帧的实体一致性识别、动态关系建模以及长程逻辑推理等核心学术挑战。其意义在于建立了首个统一框架，将全景分割与场景图生成融合于视频领域，为时空关系理解提供了可量化的评估体系。

衍生相关工作

自PVSG数据集发布以来，其已成为视频场景图生成领域的基石。相关经典工作围绕时序全景对齐、动态关系推理等方向展开，例如基于时空注意力的图神经网络被广泛用于建模视频中物体的长期依赖。这些研究不仅提升了模型在PVSG基准上的性能，更推动了视频语义分割、事件预测等相邻任务的进展，形成了以时空关系为核心的视频理解研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集