PAP-12K

Name: PAP-12K
Creator: 香港科技大学（广州）; 香港科技大学; 上海交通大学; 穆罕默德·本·扎耶德人工智能大学; 特伦托大学; Knowin
Published: 2026-03-17 01:21:49
License: 暂无描述

arXiv2026-03-17 更新2026-03-18 收录

下载链接：

https://github.com/EnVision-Research/PAP

下载链接

链接失效反馈

官方服务：

资源简介：

PAP-12K是由香港科技大学（广州）团队构建的首个全景功能预测基准数据集，包含1,003张12K超高分辨率（11904×5952）的360度全景图像，覆盖12类室内场景。数据集创新性地标注了13,493个推理型QA对及功能掩码，通过专业全景相机原生采集，保留了真实场景的几何畸变、极端尺度变化和边界不连续性等挑战特性。其构建过程采用标准化拍摄流程与两阶段标注策略，旨在解决传统针孔相机模型在具身智能中视野局限、环境信息碎片化的问题，为全景环境下的任务规划与物体交互研究提供关键数据支撑。

PAP-12K is the first panoramic function prediction benchmark dataset constructed by the team from The Hong Kong University of Science and Technology (Guangzhou). It includes 1,003 360° panoramic images with 12K ultra-high resolution (11904×5952), covering 12 categories of indoor scenes. The dataset innovatively annotates 13,493 inferential QA pairs and functional masks. All data are originally collected using professional panoramic cameras, retaining challenging characteristics of real scenes such as geometric distortion, extreme scale variations and boundary discontinuities. Its construction adopts a standardized shooting workflow and a two-stage annotation strategy, aiming to address the issues of limited field of view and fragmented environmental information of traditional pinhole camera models in embodied intelligence, providing critical data support for task planning and object interaction research in panoramic environments.

提供机构：

香港科技大学（广州）; 香港科技大学; 上海交通大学; 穆罕默德·本·扎耶德人工智能大学; 特伦托大学; Knowin

创建时间：

2026-03-17

原始信息汇总

数据集概述

数据集名称

Panoramic Affordance Prediction (PAP) 数据集，亦称 PAP-12K 数据集。

核心任务

全景可供性预测。这是首个针对全景（360度）图像进行可供性预测的探索性任务，旨在克服传统基于针孔相机模型方法视野狭窄、观测碎片化的问题，以捕捉全局空间关系并实现整体场景理解。

数据集规模与构成

图像数量：包含 1,003 张原生捕获的超高分辨率（12K）全景图像。
数据来源：100% 真实世界，采集自多样化的室内环境。
标注内容：包含超过 13,000 个基于推理的问答对，并配有像素级可供性掩码。

数据集内容与结构

环境类别：包含阳台 (balcony)、浴室 (bathroom)、卧室 (bedroom) 等多种室内场景。
组织结构：数据按场景类别和图像序列组织。每张图像对应一个文件夹，其下包含该图像中各个可供性物体（如洗衣机、水龙头）的子文件夹。
文件构成：
- 全景图像文件（如 0001.jpg）。
- 针对每个可供性物体的标注文件夹，内含：
  - 掩码文件 (mask.png)。
  - 可供性问题文件 (affordance_question.txt)。

示例结构：

PAP-12K/ ├── balcony/ │ ├── 0001/ │ │ ├── washing_machine/ │ │ │ ├── mask.png │ │ │ └── affordance_question.txt │ │ ├── faucet/ │ │ ├── ... │ │ └── 0001.jpg │ ├── 0002/ │ └── ... ├── bathroom/ ├── bedroom/ └── ...

获取方式

Google Drive：https://drive.google.com/file/d/1Bq4wLL9AoSBP1Im545qKWlk85cP21VQE/view?usp=sharing
百度网盘：https://pan.baidu.com/s/1FeNdQ67vkfUYX0qXerInTw?pwd=u8vd
在线预览：https://zixinzhang02.github.io/Panoramic-Affordance-Prediction/#dataset-preview

发布日期

数据集与推理代码于 2026-03-16 发布。

引用信息

@article{zhang2026pap, title={Panoramic Affordance Prediction}, author={Zhang, Zixin and Liao, Chenfei and Zhang, Hongfei and Chen, Harold Haodong and Chen, Kanghao and Wen, Zichen and Guo, Litao and Ren, Bin and Zheng, Xu and Li, Yinchuan and Hu, Xuming and Sebe, Nicu and Chen, Ying-Cong}, journal={arXiv preprint arXiv:2603.15558}, year={2026} }

搜集汇总

数据集介绍

构建方式

在具身智能领域，全景视觉为环境感知提供了全局空间关系，而PAP-12K数据集正是为全景可供性预测这一新兴任务构建的基准。其构建过程始于使用Insta360-X5专业全景相机，在数百个涵盖卧室、厨房、办公室等12类室内场景中，以11904×5952的超高分辨率原生采集了超过1000张图像。为确保数据多样性与真实性，采集时随机调整三脚架高度与相机角度，并重新布置场景内物体。随后，通过一个由多模态大语言模型驱动的智能代理，自动生成基于复杂推理的候选问题-答案对，再经过多轮人工验证以确保语义准确性与唯一性。最后，借助定制化的标注工具，由标注团队为每个答案对应的目标物体手动绘制精确的像素级分割掩码，并经过交叉审查，最终形成了包含超过1.3万个高质量标注对的基准数据集。

特点

PAP-12K数据集的核心特征体现在其针对全景视觉挑战的专门设计。首先，其11904×5952的超高分辨率远超现有可供性与全景数据集，为细粒度的可供性分析提供了坚实基础。其次，数据集包含了超过1.3万个需要复杂逻辑推理而非简单感知的问题-答案对，并将答案精确地锚定在像素级掩码上，推动了模型从分类到推理与定位的跨越。尤为关键的是，数据集系统地融入了360度等距柱状投影图像固有的三大挑战：几何畸变，即物体在图像两极附近产生的严重拉伸；极端尺度变化，即交互目标在全局上下文中可能占据极小的像素比例；以及边界不连续性，即连续物体在图像左右边界被割裂。这些精心设计的挑战使得PAP-12K成为评估模型在全景环境下鲁棒性的试金石。

使用方法

PAP-12K数据集主要用于推动全景可供性预测任务的研究与评估。研究者可利用该数据集训练或测试模型，使其能够根据自然语言任务指令，在复杂的360度全景图像中定位并分割出可执行该任务的目标物体部分。典型的使用流程包括：将全景图像与任务描述作为模型输入，模型需要输出对应的像素级可供性区域掩码。评估时，通常采用广义交并比、累积交并比以及在不同IoU阈值下的精确度等指标，全面衡量预测掩码的质量。该数据集尤其适用于检验模型应对全景特有畸变、尺度变化和边界问题的能力。此外，其丰富的场景类别与推理型标注，也使其成为开发适用于家庭助手、通用机器人等下游应用的具身智能系统的宝贵资源。

背景与挑战

背景概述

在具身人工智能领域，可承受性预测作为连接感知与行动的关键桥梁，其研究长期受限于针孔相机模型的狭窄视野与碎片化观测。为突破这一瓶颈，香港科技大学（广州）等机构的研究团队于2026年提出了PAP-12K数据集，开创了全景可承受性预测这一新兴研究方向。该数据集包含超过1000张超高分辨率（12K）的全景图像，并标注了逾1.2万个基于推理的问答对及可承受性掩码，覆盖日常生活、工作娱乐等12类室内场景。PAP-12K的建立旨在通过360度全景视角捕捉全局空间关系与整体场景理解，为机器人任务规划与交互决策提供更完整的语义信息，显著推动了全景视觉与具身智能的交叉融合。

当前挑战

PAP-12K数据集致力于解决全景视角下的可承受性预测问题，其核心挑战在于克服传统针孔相机模型因视野受限而导致的全局上下文缺失与交互目标遗漏。在构建过程中，数据集面临三大技术难题：首先是超高分辨率（11904×5952）带来的计算负担与细粒度分析需求；其次是等距柱状投影固有的几何畸变，尤其在图像两极区域物体严重拉伸；此外，全景图像中物体尺度极端变化（从微小安全摄像头到大型窗帘）以及边界不连续性（物体在图像左右边缘被分割）均对模型的定位与分割能力构成严峻考验。这些挑战共同要求算法具备处理复杂空间扭曲与多尺度推理的鲁棒性。

常用场景

经典使用场景

在具身智能领域，PAP-12K数据集作为首个全景可供性预测基准，其经典应用场景集中于推动全景视觉与可供性推理的交叉研究。该数据集通过提供超高清12K分辨率的360度全景图像，以及超过1.2万对精心标注的问答对和掩码，为模型训练与评估建立了标准化平台。研究者可利用PAP-12K验证模型在全景环境下理解复杂任务指令、定位交互对象并生成精确分割掩码的能力，尤其擅长处理几何畸变、极端尺度变化和边界不连续性等全景特有挑战。

解决学术问题

PAP-12K的推出解决了具身智能中因传统针孔相机视野受限而导致的场景理解碎片化问题。该数据集首次将可供性预测任务扩展至全景视角，使模型能够捕获全局空间关系与整体环境上下文。其意义在于突破了现有方法在狭窄视野下的性能瓶颈，为研究全景感知下的动作可能性映射提供了数据基础，推动了视觉推理与机器人交互的深度融合，对实现鲁棒的具身智能具有里程碑式的影响。

衍生相关工作

围绕PAP-12K数据集，研究社区已衍生出多项经典工作，其中最具代表性的是与其同期提出的PAP框架。该框架受人类中央凹视觉系统启发，采用递归视觉路由、自适应注视机制与级联可供性接地模块，有效克服了全景图像的超高分辨率与严重畸变挑战。此外，该数据集也激励了后续研究探索将视觉语言模型与全景感知相结合的新范式，为全景可供性预测领域的算法创新与基准优化奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成