five

PSG-coco-format

收藏
Hugging Face2026-03-09 更新2026-03-10 收录
下载链接:
https://huggingface.co/datasets/maelic/PSG-coco-format
下载链接
链接失效反馈
官方服务:
资源简介:
PSG(全景场景图)数据集是Panoptic Scene Graph(PSG)基准的COCO-JSON格式版本,专为对象检测和场景图生成任务设计。该数据集由SGG-Benchmark框架生成,并用于训练REACT论文中描述的模型。数据集包含133个COCO对象类别的边界框和56个谓词类别的场景图关系,形成有向的(主语,谓词,宾语)三元组。数据集分为训练集(45,564张图像,494,213个对象标注,254,214个关系)、验证集(1,000张图像,19,039个对象标注,7,458个关系)和测试集(2,186张图像,24,910个对象标注,13,705个关系)。每个图像包含图像、图像ID、尺寸、文件名、对象列表和关系列表。对象列表包括ID、类别ID、边界框(xywh格式)、面积等;关系列表包括ID、主语ID、宾语ID和谓词ID。数据集不包含原始分割掩码,仅适用于基于边界框的场景图生成模型。使用MIT许可证。

The PSG (Panoptic Scene Graph) dataset is the COCO-JSON formatted version of the Panoptic Scene Graph (PSG) benchmark, specifically designed for object detection and scene graph generation tasks. This dataset was generated by the SGG-Benchmark framework and used to train the models described in the REACT paper. The dataset includes bounding boxes for 133 COCO object categories and scene graph relationships across 56 predicate categories, forming directed (subject, predicate, object) triplets. The dataset is split into the training set (45,564 images, 494,213 object annotations, 254,214 relationships), validation set (1,000 images, 19,039 object annotations, 7,458 relationships), and test set (2,186 images, 24,910 object annotations, 13,705 relationships). Each image entry includes the image itself, image ID, dimensions, file name, object list, and relationship list. The object list includes ID, category ID, bounding box (in xywh format), area, and other attributes; the relationship list includes ID, subject ID, object ID, and predicate ID. The dataset does not contain original segmentation masks and is only applicable to bounding box-based scene graph generation models. It is licensed under the MIT License.
创建时间:
2026-03-07
原始信息汇总

PSG — Panoptic Scene Graph (COCO format) 数据集概述

数据集简介

这是一个以标准COCO-JSON格式重新整理的**全景场景图(PSG)**基准数据集,适用于目标检测和场景图生成任务。该数据集由SGG-Benchmark框架生成,并用于训练REACT论文中描述的模型。

重要说明:此数据集不包含原始的分割掩码,仅包含边界框和类别标签。因此,它不是一个全景分割数据集,而是一个仅可用于训练基于边界框的场景图生成模型的场景图数据集。

数据集详情

  • 任务类别:目标检测
  • 标签:场景图、视觉关系检测、全景场景图、COCO格式
  • 语言:英语
  • 数据规模:10K < n < 100K
  • 许可证:MIT

标注概述

每张图像包含:

  • 目标边界框:133个COCO目标类别。
  • 场景图关系:56个谓词类别,以有向的(主语,谓词,宾语)三元组形式连接目标对。

数据集统计

数据分割 图像数量 目标标注数量 关系数量
训练集 45,564 494,213 254,214
验证集 1,000 19,039 7,458
测试集 2,186 24,910 13,705

类别信息

  • 目标类别(133类):标准的133类COCO全景词汇表(完整列表嵌入在dataset_info.description中)。
  • 谓词类别(56类):包括over、in front of、beside、on、in、attached to、hanging from、on back of、falling off、going down、painted on、walking on、running on、crossing、standing on、lying on、sitting on、flying over、jumping over、jumping from、wearing、holding、carrying、looking at、guiding、kissing、eating、drinking、feeding、biting、catching、picking、playing with、chasing、climbing、cleaning、playing、touching、pushing、pulling、opening、cooking、talking to、throwing、slicing、driving、riding、parked on、driving on、about to hit、kicking、swinging、entering、exiting、enclosing、leaning on。

数据结构

数据集采用DatasetDict结构,包含trainvaltest三个分割。每个数据集包含以下特征:imageimage_idwidthheightfile_nameobjectsrelations

每条记录包含的字段

字段名 类型 描述
image Image PIL图像
image_id int 原始COCO图像ID
width / height int 图像尺寸
file_name str 原始文件名
objects List[dict] 包含idcategory_idbbox (xywh)areaiscrowdsegmentation的字典列表
relations List[dict] 包含idsubject_idobject_idpredicate_id的字典列表,ID指向objects[*].id

使用示例

python from datasets import load_dataset import json

ds = load_dataset("maelic/PSG-coco-format")

从嵌入的元数据中恢复标签映射

meta = json.loads(ds["train"].info.description) cat_id2name = {c["id"]: c["name"] for c in meta["categories"]} pred_id2name = {c["id"]: c["name"] for c in meta["rel_categories"]}

sample = ds["train"][0] image = sample["image"] # PIL Image for obj in sample["objects"]: print(cat_id2name[obj["category_id"]], obj["bbox"]) for rel in sample["relations"]: print(rel["subject_id"], "--", pred_id2name[rel["predicate_id"]], "->", rel["object_id"])

引用

如果使用此数据集,请引用原始PSG论文: bibtex @inproceedings{yang2022panoptic, title = {Panoptic scene graph generation}, author = {Yang, Jingkang and Ang, Yi Zhe and Guo, Zujin and Zhou, Kaiyang and Zhang, Wayne and Liu, Ziwei}, booktitle = {European conference on computer vision}, pages = {178--196}, year = {2022}, organization = {Springer}, }

如果使用SGG-Benchmark模型,请同时引用REACT论文: bibtex @inproceedings{Neau_2025_BMVC, author = {Ma"elic Neau and Paulo Eduardo Santos and Anne-Gwenn Bosser and Akihiro Sugimoto and Cedric Buche}, title = {REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation}, booktitle = {36th British Machine Vision Conference 2025, {BMVC} 2025, Sheffield, UK, November 24-27, 2025}, publisher = {BMVA}, year = {2025}, url = {https://bmva-archive.org.uk/bmvc/2025/assets/papers/Paper_239/paper.pdf}, }

许可证

本数据集继承原始PSG基准的MIT许可证。详情请参阅MIT许可证

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉关系检测领域,PSG-coco-format数据集作为Panoptic Scene Graph基准的转化版本,其构建过程体现了对现有资源的有效整合。该数据集源自NeurIPS 2022上提出的原始PSG标注,通过技术处理将其重新组织为标准COCO-JSON格式,移除了原始的分割掩码信息,仅保留边界框与类别标签。这一重构工作由SGG-Benchmark框架完成,旨在适配基于边界框的场景图生成模型训练,使得数据能够无缝接入主流的目标检测流程,从而在保持核心关系三元组结构的同时,优化了工程使用的便捷性。
使用方法
对于研究者而言,该数据集的使用方法直接而高效。通过Hugging Face的datasets库加载后,用户可获得包含图像、物体标注及关系列表的标准数据结构。数据集内嵌的元数据提供了完整的类别与谓语映射字典,便于将数值标识转换为可读标签。典型的使用流程包括读取样本、解析物体边界框及其类别,并遍历关系三元组以分析主语、谓语与宾语之间的关联。这种设计使得该数据集能够快速集成到现有的场景图生成管线中,支持模型训练与评估的完整实验循环。
背景与挑战
背景概述
Panoptic Scene Graph(PSG)数据集由Jingkang Yang等研究人员于2022年提出,旨在推动全景场景图生成领域的发展。该数据集构建于COCO数据集基础之上,通过引入133个对象类别和56个谓词关系,系统性地标注了图像中对象间的复杂视觉关系。其核心研究问题聚焦于如何从全景分割视角出发,生成结构化且语义丰富的场景图,以支持高级视觉理解任务,如视觉推理和场景解析。PSG的发布显著提升了场景图生成模型的性能评估标准,为计算机视觉社区提供了重要的基准资源。
当前挑战
PSG数据集所解决的领域问题在于场景图生成中对象与关系的同时识别与结构化表示,其挑战包括处理视觉关系的长尾分布、建模细粒度语义交互以及平衡模型在准确性与效率间的权衡。在构建过程中,数据标注面临大规模图像中对象边界框与关系三元组的精确标注难题,需确保标注一致性与语义完整性。此外,将原始全景分割数据转换为边界框格式时,可能损失部分空间细节,限制了模型对复杂场景的全面理解能力。
常用场景
经典使用场景
在计算机视觉领域,场景图生成(Scene Graph Generation, SGG)旨在从图像中解析物体及其语义关系,构建结构化视觉表示。PSG-coco-format数据集作为Panoptic Scene Graph基准的COCO格式版本,其经典使用场景集中于训练和评估基于边界框的场景图生成模型。研究者利用该数据集中的物体边界框标注与56种谓词关系,开发能够识别如“人骑自行车”或“杯子在桌子上”等复杂视觉关系的算法,推动视觉关系检测任务的进展。
解决学术问题
该数据集有效应对了视觉场景理解中关系建模的挑战,解决了传统方法在细粒度语义关系识别上的不足。通过提供大规模、高质量的场景图标注,它支持学术界探索物体交互、空间布局及功能关联等核心问题,促进了从低级视觉特征到高级语义推理的跨越。其意义在于为场景图生成建立了标准化评估框架,加速了视觉关系检测、图像描述生成及视觉问答等跨模态研究的发展。
实际应用
在实际应用中,PSG-coco-format数据集为智能系统提供了丰富的视觉关系知识,赋能于自动驾驶、机器人导航及智能监控等领域。例如,在自动驾驶中,模型可借助该数据集学习交通场景中物体间的动态关系,如“车辆超越行人”或“信号灯控制车流”,从而提升环境感知与决策安全性。此外,在内容检索与增强现实系统中,它支持更精准的图像语义分析,改善用户体验。
数据集最近研究
最新研究方向
在视觉关系检测领域,PSG-coco-format数据集作为全景场景图生成任务的重要基准,正推动着基于边界框的场景图生成模型向实时高效方向演进。近期研究聚焦于平衡模型精度与计算效率的权衡策略,例如REACT框架通过优化推理架构,在保持关系预测准确性的同时显著提升处理速度,这响应了自动驾驶和智能监控等应用对实时视觉理解的迫切需求。该数据集的COCO标准化格式进一步降低了模型集成门槛,促进了跨任务比较与开源生态发展,为场景理解技术的实际部署提供了关键支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作