PSG-coco-format

Hugging Face2026-03-09 更新2026-03-10 收录

下载链接：

https://huggingface.co/datasets/maelic/PSG-coco-format

下载链接

链接失效反馈

官方服务：

资源简介：

PSG（全景场景图）数据集是Panoptic Scene Graph（PSG）基准的COCO-JSON格式版本，专为对象检测和场景图生成任务设计。该数据集由SGG-Benchmark框架生成，并用于训练REACT论文中描述的模型。数据集包含133个COCO对象类别的边界框和56个谓词类别的场景图关系，形成有向的（主语，谓词，宾语）三元组。数据集分为训练集（45,564张图像，494,213个对象标注，254,214个关系）、验证集（1,000张图像，19,039个对象标注，7,458个关系）和测试集（2,186张图像，24,910个对象标注，13,705个关系）。每个图像包含图像、图像ID、尺寸、文件名、对象列表和关系列表。对象列表包括ID、类别ID、边界框（xywh格式）、面积等；关系列表包括ID、主语ID、宾语ID和谓词ID。数据集不包含原始分割掩码，仅适用于基于边界框的场景图生成模型。使用MIT许可证。

The PSG (Panoptic Scene Graph) dataset is the COCO-JSON formatted version of the Panoptic Scene Graph (PSG) benchmark, specifically designed for object detection and scene graph generation tasks. This dataset was generated by the SGG-Benchmark framework and used to train the models described in the REACT paper. The dataset includes bounding boxes for 133 COCO object categories and scene graph relationships across 56 predicate categories, forming directed (subject, predicate, object) triplets. The dataset is split into the training set (45,564 images, 494,213 object annotations, 254,214 relationships), validation set (1,000 images, 19,039 object annotations, 7,458 relationships), and test set (2,186 images, 24,910 object annotations, 13,705 relationships). Each image entry includes the image itself, image ID, dimensions, file name, object list, and relationship list. The object list includes ID, category ID, bounding box (in xywh format), area, and other attributes; the relationship list includes ID, subject ID, object ID, and predicate ID. The dataset does not contain original segmentation masks and is only applicable to bounding box-based scene graph generation models. It is licensed under the MIT License.

创建时间：

2026-03-07

原始信息汇总

PSG — Panoptic Scene Graph (COCO format) 数据集概述

数据集简介

这是一个以标准COCO-JSON格式重新整理的**全景场景图（PSG）**基准数据集，适用于目标检测和场景图生成任务。该数据集由SGG-Benchmark框架生成，并用于训练REACT论文中描述的模型。

重要说明：此数据集不包含原始的分割掩码，仅包含边界框和类别标签。因此，它不是一个全景分割数据集，而是一个仅可用于训练基于边界框的场景图生成模型的场景图数据集。

数据集详情

任务类别：目标检测
标签：场景图、视觉关系检测、全景场景图、COCO格式
语言：英语
数据规模：10K < n < 100K
许可证：MIT

标注概述

每张图像包含：

目标边界框：133个COCO目标类别。
场景图关系：56个谓词类别，以有向的（主语，谓词，宾语）三元组形式连接目标对。

数据集统计

数据分割	图像数量	目标标注数量	关系数量
训练集	45,564	494,213	254,214
验证集	1,000	19,039	7,458
测试集	2,186	24,910	13,705

类别信息

目标类别（133类）：标准的133类COCO全景词汇表（完整列表嵌入在dataset_info.description中）。
谓词类别（56类）：包括over、in front of、beside、on、in、attached to、hanging from、on back of、falling off、going down、painted on、walking on、running on、crossing、standing on、lying on、sitting on、flying over、jumping over、jumping from、wearing、holding、carrying、looking at、guiding、kissing、eating、drinking、feeding、biting、catching、picking、playing with、chasing、climbing、cleaning、playing、touching、pushing、pulling、opening、cooking、talking to、throwing、slicing、driving、riding、parked on、driving on、about to hit、kicking、swinging、entering、exiting、enclosing、leaning on。

数据结构

数据集采用DatasetDict结构，包含train、val、test三个分割。每个数据集包含以下特征：image、image_id、width、height、file_name、objects、relations。

每条记录包含的字段：

字段名	类型	描述
`image`	`Image`	PIL图像
`image_id`	`int`	原始COCO图像ID
`width` / `height`	`int`	图像尺寸
`file_name`	`str`	原始文件名
`objects`	`List[dict]`	包含`id`、`category_id`、`bbox (xywh)`、`area`、`iscrowd`、`segmentation`的字典列表
`relations`	`List[dict]`	包含`id`、`subject_id`、`object_id`、`predicate_id`的字典列表，ID指向`objects[*].id`

使用示例

python from datasets import load_dataset import json

ds = load_dataset("maelic/PSG-coco-format")

从嵌入的元数据中恢复标签映射

meta = json.loads(ds["train"].info.description) cat_id2name = {c["id"]: c["name"] for c in meta["categories"]} pred_id2name = {c["id"]: c["name"] for c in meta["rel_categories"]}

sample = ds["train"][0] image = sample["image"] # PIL Image for obj in sample["objects"]: print(cat_id2name[obj["category_id"]], obj["bbox"]) for rel in sample["relations"]: print(rel["subject_id"], "--", pred_id2name[rel["predicate_id"]], "->", rel["object_id"])

引用

如果使用此数据集，请引用原始PSG论文： bibtex @inproceedings{yang2022panoptic, title = {Panoptic scene graph generation}, author = {Yang, Jingkang and Ang, Yi Zhe and Guo, Zujin and Zhou, Kaiyang and Zhang, Wayne and Liu, Ziwei}, booktitle = {European conference on computer vision}, pages = {178--196}, year = {2022}, organization = {Springer}, }

如果使用SGG-Benchmark模型，请同时引用REACT论文： bibtex @inproceedings{Neau_2025_BMVC, author = {Ma"elic Neau and Paulo Eduardo Santos and Anne-Gwenn Bosser and Akihiro Sugimoto and Cedric Buche}, title = {REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation}, booktitle = {36th British Machine Vision Conference 2025, {BMVC} 2025, Sheffield, UK, November 24-27, 2025}, publisher = {BMVA}, year = {2025}, url = {https://bmva-archive.org.uk/bmvc/2025/assets/papers/Paper_239/paper.pdf}, }

许可证

本数据集继承原始PSG基准的MIT许可证。详情请参阅MIT许可证。

搜集汇总

数据集介绍

构建方式

在视觉关系检测领域，PSG-coco-format数据集作为Panoptic Scene Graph基准的转化版本，其构建过程体现了对现有资源的有效整合。该数据集源自NeurIPS 2022上提出的原始PSG标注，通过技术处理将其重新组织为标准COCO-JSON格式，移除了原始的分割掩码信息，仅保留边界框与类别标签。这一重构工作由SGG-Benchmark框架完成，旨在适配基于边界框的场景图生成模型训练，使得数据能够无缝接入主流的目标检测流程，从而在保持核心关系三元组结构的同时，优化了工程使用的便捷性。

使用方法

对于研究者而言，该数据集的使用方法直接而高效。通过Hugging Face的datasets库加载后，用户可获得包含图像、物体标注及关系列表的标准数据结构。数据集内嵌的元数据提供了完整的类别与谓语映射字典，便于将数值标识转换为可读标签。典型的使用流程包括读取样本、解析物体边界框及其类别，并遍历关系三元组以分析主语、谓语与宾语之间的关联。这种设计使得该数据集能够快速集成到现有的场景图生成管线中，支持模型训练与评估的完整实验循环。

背景与挑战

背景概述

Panoptic Scene Graph（PSG）数据集由Jingkang Yang等研究人员于2022年提出，旨在推动全景场景图生成领域的发展。该数据集构建于COCO数据集基础之上，通过引入133个对象类别和56个谓词关系，系统性地标注了图像中对象间的复杂视觉关系。其核心研究问题聚焦于如何从全景分割视角出发，生成结构化且语义丰富的场景图，以支持高级视觉理解任务，如视觉推理和场景解析。PSG的发布显著提升了场景图生成模型的性能评估标准，为计算机视觉社区提供了重要的基准资源。

当前挑战

PSG数据集所解决的领域问题在于场景图生成中对象与关系的同时识别与结构化表示，其挑战包括处理视觉关系的长尾分布、建模细粒度语义交互以及平衡模型在准确性与效率间的权衡。在构建过程中，数据标注面临大规模图像中对象边界框与关系三元组的精确标注难题，需确保标注一致性与语义完整性。此外，将原始全景分割数据转换为边界框格式时，可能损失部分空间细节，限制了模型对复杂场景的全面理解能力。

常用场景

经典使用场景

在计算机视觉领域，场景图生成（Scene Graph Generation, SGG）旨在从图像中解析物体及其语义关系，构建结构化视觉表示。PSG-coco-format数据集作为Panoptic Scene Graph基准的COCO格式版本，其经典使用场景集中于训练和评估基于边界框的场景图生成模型。研究者利用该数据集中的物体边界框标注与56种谓词关系，开发能够识别如“人骑自行车”或“杯子在桌子上”等复杂视觉关系的算法，推动视觉关系检测任务的进展。

解决学术问题

该数据集有效应对了视觉场景理解中关系建模的挑战，解决了传统方法在细粒度语义关系识别上的不足。通过提供大规模、高质量的场景图标注，它支持学术界探索物体交互、空间布局及功能关联等核心问题，促进了从低级视觉特征到高级语义推理的跨越。其意义在于为场景图生成建立了标准化评估框架，加速了视觉关系检测、图像描述生成及视觉问答等跨模态研究的发展。

实际应用

在实际应用中，PSG-coco-format数据集为智能系统提供了丰富的视觉关系知识，赋能于自动驾驶、机器人导航及智能监控等领域。例如，在自动驾驶中，模型可借助该数据集学习交通场景中物体间的动态关系，如“车辆超越行人”或“信号灯控制车流”，从而提升环境感知与决策安全性。此外，在内容检索与增强现实系统中，它支持更精准的图像语义分析，改善用户体验。

数据集最近研究