Person In Context (PIC)

Name: Person In Context (PIC)
Creator: 中国科学院
Published: 2021-05-25 20:53:03
License: 暂无描述

arXiv2021-05-25 更新2024-06-21 收录

下载链接：

http://picdataset.com/challenge/index/

下载链接

链接失效反馈

官方服务：

资源简介：

Person In Context (PIC) 数据集是由中国科学院等机构创建的一个大规模高分辨率图像数据集，旨在支持人中心关系分割（HRS）任务的研究。该数据集包含17,122张图像，每张图像都密集标注了实体分割和关系，包括141个对象类别、23种关系类别和25个语义人体部位。PIC数据集的特点是高分辨率和丰富的标注信息，适用于需要精细细节识别的视觉任务，如视觉问答和具身AI。数据集的创建过程涉及数据爬取、过滤和平衡，确保了数据的多样性和代表性。PIC数据集的应用领域包括人机交互、视觉关系检测等，旨在解决现有算法在处理非常细粒度细节问题上的不足。

The Person In Context (PIC) dataset is a large-scale high-resolution image dataset developed by the Chinese Academy of Sciences and other institutions, intended to support research on the Human-Centric Relation Segmentation (HRS) task. This dataset comprises 17,122 images, each with dense annotations for entity segmentation and relational information, covering 141 object categories, 23 relation categories, and 25 semantic human body parts. Characterized by high resolution and abundant annotation details, the PIC dataset is suitable for visual tasks requiring fine-grained recognition, such as Visual Question Answering and Embodied AI. The development process of the dataset involves data crawling, filtering and balancing, which guarantees the diversity and representativeness of the dataset. Application scenarios of the PIC dataset include human-computer interaction, visual relation detection and other fields, aiming to address the shortcomings of existing algorithms when processing extremely fine-grained detail-related challenges.

提供机构：

中国科学院

创建时间：

2021-05-24

搜集汇总

数据集介绍

构建方式

在视觉与语言理解领域，为应对细粒度细节处理难题，Person In Context (PIC) 数据集通过系统化流程构建。数据采集阶段，从Flickr平台爬取室内外场景图像，确保版权合规，并通过查询词筛选增强场景多样性。随后进行数据过滤与平衡处理，剔除低分辨率或无人类图像，并针对长尾分布的关系类别进行补充收集，以缓解数据偏差。标注过程采用密集注释策略，涵盖141类实体分割、23种关系类别及25种语义人体部位，每张图像平均标注8.1个实体和10.4组关系，形成高分辨率、多层次的标注体系。

特点

PIC数据集以人为中心的关系分割为核心，其显著特点在于细粒度标注的深度与广度。数据集包含17,122张高分辨率图像，平均分辨率达1427×1882像素，支持精细的视觉识别。标注内容不仅涵盖实体分割掩码，还扩展至人体解析与关键点检测，实现了对动作关系（如“手持”）和几何关系（如“在前方”）的双重建模。相较于传统视觉关系检测数据集，PIC采用像素级掩码表征实体，尤其擅长处理非刚性物体（如“天空”或“海洋”）的复杂形状，同时通过人体部位级交互分类，区分如“左臂持球”与“双臂持球”等微妙差异，为机器人操作、图像编辑等下游任务提供精确的空间与语义支持。

使用方法

PIC数据集适用于训练与评估以人为中心的关系分割模型，其使用方法聚焦于多任务协同框架。研究者可基于数据集的三分支标注结构——实体分割、关系匹配与人体解析——设计统一模型，如论文提出的同步匹配与分割框架。具体而言，实体分割分支通过动态卷积生成实体掩码；关系匹配分支检测关系点并估计主体与客体的位移，结合交互部位分类输出关系三元组；人体解析分支则提供语义部位标签。评估时采用平均召回率指标，要求预测的实体掩码与关系类别均与标注匹配，且交并比阈值需满足设定标准。数据集已划分为训练、验证与测试集，支持端到端模型训练与跨任务性能验证，尤其适用于对实时性要求高的嵌入式AI应用。

背景与挑战

背景概述

在视觉与语言理解领域，尽管已有显著进展，但处理涉及精细细节的问题仍具挑战。例如，当机器人接收到“递给我女孩左手拿的书”的指令时，若女孩左右手各持一本书，现有方法往往难以准确识别。为此，研究者于2021年提出了Person In Context (PIC)数据集，旨在推动以人为中心的关系分割任务的发展。该数据集由北京航空航天大学、中国科学院及Sea AI Lab等机构的研究团队联合创建，核心研究问题聚焦于预测人类与周围实体之间的细粒度关系，并识别与关系相关的人体部位，以像素级掩码形式呈现。PIC数据集包含17,122张高分辨率图像，密集标注了141个物体类别、23种关系类别及25个人体语义部位，其高分辨率特性支持对人与环境的精细识别，为具身智能、视觉问答等认知型任务提供了重要数据基础。

当前挑战

PIC数据集旨在解决以人为中心的关系分割任务，该任务作为人-物交互检测的细粒度扩展，面临多重挑战。在领域问题层面，需从复杂场景中精确分割实体并推断其与人类之间的动作关系与几何关系，同时准确识别参与交互的人体部位，这对模型的细粒度理解能力提出了极高要求。构建过程中，挑战主要体现在数据收集与标注的复杂性上：需从多样化室内外场景中爬取并筛选高分辨率图像，确保版权合规；标注工作涉及密集的实体分割、人体部位解析及关系标注，且需处理关系分布的长尾效应，通过数据平衡策略缓解标注偏差。此外，标注需支持像素级掩码表示，以准确描述实体形状，尤其对于无固定形状的物体类别，这增加了标注的一致性与质量维护难度。

常用场景

经典使用场景

在计算机视觉与语言理解领域，Person In Context (PIC) 数据集被广泛应用于以人为中心的细粒度关系分割任务。该数据集通过提供高分辨率图像、密集标注的实体分割掩码、人类解析及关系三元组，支持模型在复杂场景中精确识别人类与周围实体之间的交互。经典使用场景包括在远程具身视觉指代表达任务中，机器人依据指令如“递给我服务员左臂上的盘子”，通过解析〈人类[左臂]，持有，盘子〉这类关系三元组及对应的像素级掩码，实现精准的目标定位与抓取。

衍生相关工作

基于 PIC 数据集，研究者提出了 Simultaneous Matching and Segmentation (SMS) 框架，该一体化模型通过并行分支实现实体分割、关系匹配和人类解析，以实时推理速度达成优异性能。相关工作还扩展至视频关系分割、多模态预训练模型，以及结合图神经网络的关系推理方法。这些衍生工作进一步推动了细粒度视觉语言任务的发展，并在 V-COCO 等数据集上验证了其泛化能力，为后续的认知智能研究奠定了坚实基础。

数据集最近研究