PAP-12K Dataset

github2026-03-14 更新2026-03-12 收录

下载链接：

https://github.com/EnVision-Research/PAP

下载链接

链接失效反馈

官方服务：

资源简介：

一个大规模基准数据集，包含1,003张原生捕获的超高分辨率（12K）全景图像，来自多样化的室内环境，并配有超过13,000个精心注释的基于推理的问答对和像素级功能掩码。

A large-scale benchmark dataset containing 1,003 naturally captured ultra-high-resolution (12K) panoramic images sourced from diverse indoor environments, paired with over 13,000 carefully annotated reasoning-based question-answer pairs and pixel-level functional masks.

创建时间：

2026-03-10

原始信息汇总

数据集概述：PAP-12K

基本信息

数据集名称：PAP-12K
所属研究项目：Panoramic Affordance Prediction (PAP)
数据状态：即将发布 (Coming Soon)
官方项目页面：https://zixinzhang02.github.io/Panoramic-Affordance-Prediction/

数据集详情

数据规模：包含 1,003 张全景图像。
图像特性：
- 来源：所有图像均为在真实世界环境中使用专业 360° 相机原生拍摄，非合成或网络爬取。
- 分辨率：超高清分辨率 (11904×5952)，即 12K。
- 格式：360° 等距柱状投影 (ERP) 图像。
标注信息：
- 包含超过 13,000 个基于推理的问答对。
- 提供像素级的可供性掩码。
场景：多样化的室内环境。

数据集设计目标与挑战

该数据集旨在封装 360° ERP 图像特有的挑战，包括：

几何畸变：物体在两极附近出现严重拉伸。
极端尺度变化：无约束环境导致交互目标尺度极小。
边界不连续性：连续物体在图像边缘被分割。

预期发布内容

计划发布的组件包括：

PAP-12K 数据集（全分辨率图像、QA 标注和分割掩码）。
基准测试的评估脚本。
PAP 推理管道的源代码。

备注

代码库目前正在进行内部审查和清理。
预计在两周内发布。

搜集汇总

数据集介绍

构建方式

在具身智能领域，全景视觉因其广阔的视野而备受关注。PAP-12K数据集专为全景可供性预测任务构建，其核心在于全部1003张超高分辨率（11904×5952）的360度全景图像均采用专业设备在真实室内环境中原生捕获，避免了合成或网络爬取数据可能引入的偏差。这一构建过程确保了图像中几何畸变、光照条件及物体尺度的真实性，为模型提供了贴近实际应用的训练与评估基础。数据集进一步配对了超过13000个经过精细标注的推理问答对及像素级可供性掩码，形成了完整的标注体系。

特点

该数据集深刻体现了全景影像的固有挑战。其图像均以等距柱状投影格式呈现，天然包含了靠近两极区域的严重几何拉伸变形，以及无约束环境中交互目标尺度极端变化的现象。连续物体在图像边界处的不连续性也得到了完整保留。这些特征共同构成了一个高度逼真的基准测试平台，能够有效评估模型在复杂真实场景下的全景理解与推理能力。数据集规模庞大且标注详实，为推动全景可供性预测这一新兴研究方向提供了关键的数据支撑。

使用方法

PAP-12K数据集主要用于全景可供性预测任务的模型训练与性能评估。研究者可利用其超高分辨率的全景图像及对应的问答对，开发或验证能够理解全局空间关系并进行细粒度交互推理的算法。数据集提供的像素级掩码可用于监督学习或作为评估预测精度的真值。使用前需注意处理图像的等距柱状投影格式，以应对其中的几何畸变与边界不连续性问题。相关的评估脚本将随数据集一同发布，以确保评测标准的一致性。

背景与挑战

背景概述

在具身人工智能领域，感知与行动之间的有效衔接依赖于可供性预测这一核心任务。传统研究多局限于针孔相机模型，其狭窄的视场与碎片化的观测限制了场景理解的完整性。为突破这一局限，香港科技大学（广州）等机构的研究团队于近期推出了PAP-12K数据集，专注于全景可供性预测这一新兴方向。该数据集包含1003张原生捕获的超高分辨率全景图像，旨在通过360度视角捕捉全局空间关系，推动机器人对复杂室内环境的整体认知与交互能力，标志着该领域从局部感知向全景理解的重要演进。

当前挑战

全景可供性预测旨在解决全景图像中物体交互功能的理解与定位问题，其核心挑战源于等距柱状投影带来的独特几何特性。具体而言，数据构建面临三大困难：图像两极区域的严重几何畸变导致物体形状拉伸；非约束环境中交互目标尺度差异极大，存在微小物体难以检测；图像边界处物体连续性被割裂，影响完整实例的识别。这些挑战共同构成了从静态全景图像中精确预测可供性功能的重大障碍，对模型的几何适应性与多尺度分析能力提出了极高要求。

常用场景

经典使用场景

在具身智能领域，感知与行动的衔接依赖于对场景中物体功能属性的精准理解。PAP-12K数据集以其原生采集的超高分辨率全景图像，为全景可供性预测任务提供了首个大规模真实世界基准。该数据集最经典的使用场景是训练和评估模型在全景视野下识别物体的交互可能性，例如在复杂的室内环境中，模型需要根据360度图像判断某个物体是否“可坐”、“可抓取”或“可操作”，从而为机器人或虚拟代理的后续行动规划提供关键依据。

实际应用

PAP-12K数据集的实际应用价值主要体现在增强现实、服务机器人以及智能家居等领域。例如，在家庭服务机器人场景中，机器人可利用该数据集训练的模型，通过自身搭载的全景摄像头实时分析室内环境，准确识别出椅子、桌子、开关等物体的可交互部位，从而执行如搬移物品、开关电器等复杂任务。这种基于全景感知的交互理解能力，显著提升了机器人在非结构化环境中的自主性和适应性。

衍生相关工作

围绕PAP-12K数据集及其提出的全景可供性预测任务，已经催生了一系列相关的经典研究工作。其中，配套提出的PAP框架作为一种免训练的、模仿人类中央凹视觉的由粗到细处理流程，为后续研究提供了重要的基线方法。该工作启发了社区对视觉语言模型在全景场景中动态路由、自适应视角投影以及级联可供性 grounding 等方向的深入探索，推动了跨模态理解与几何校正技术的结合，为处理复杂视觉任务开辟了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集