360-AGD

Name: 360-AGD
Creator: 湖南大学·人工智能与机器人学院; 湖南大学·机器人视觉感知与控制技术国家工程研究中心
Published: 2026-03-10 22:58:26
License: 暂无描述

arXiv2026-03-10 更新2026-03-12 收录

下载链接：

https://github.com/GL-ZHU925/PanoAffordanceNet

下载链接

链接失效反馈

官方服务：

资源简介：

360-AGD是首个面向360°室内场景的高质量全景功能可供性（affordance）标注数据集，由湖南大学团队构建。该数据集通过全景图像捕捉复杂室内环境的全局空间布局，重点标注了物体交互功能区域，解决了传统视角受限数据在机器人全景感知中的不足。其数据来源于真实室内场景的等距柱状投影（ERP）图像，包含密集像素级注释，支持几何失真校准和跨尺度语义对齐研究。该数据集旨在推动具身智能领域的全景场景级感知，为功能可供性定位任务提供标准化评估基准。

360-AGD is the first high-quality panoramic affordance annotation dataset for 360° indoor scenes, constructed by the team from Hunan University. This dataset captures the global spatial layout of complex indoor environments via panoramic images, focusing on annotating functional regions for object interaction, and addresses the shortcomings of traditional view-limited data in robotic panoramic perception. Its data originates from equirectangular projection (ERP) images of real indoor scenes, containing dense pixel-level annotations, and supports research on geometric distortion calibration and cross-scale semantic alignment. This dataset aims to promote panoramic scene-level perception in the field of embodied intelligence, and provides a standardized evaluation benchmark for affordance localization tasks.

提供机构：

湖南大学·人工智能与机器人学院; 湖南大学·机器人视觉感知与控制技术国家工程研究中心

创建时间：

2026-03-10

原始信息汇总

PanoAffordanceNet数据集概述

数据集名称

PanoAffordanceNet

核心任务

全景（360°）室内环境中的整体可供性（Affordance）接地（Grounding）任务。
将研究范式从孤立的对象级理解转向整体场景级推理。

数据集内容

数据集名称为360-AGD。
数据集尚未发布（状态为“Coming Soon”）。

数据集目标

为具身智能（Embodied Intelligence）中的场景级感知提供基准。
旨在解决当前可供性研究局限于以对象为中心、透视视图的不足，使具身代理能够对其360°动作空间具备全局感知。

数据状态

数据集360-AGD、模型架构及训练代码均计划发布，但当前尚未发布。

作者信息

主要作者：Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang。
所属机构：湖南大学人工智能与机器人学院、机器人视觉感知与控制技术国家工程研究中心。
通讯作者：Kailun Yang (kailun.yang@hnu.edu.cn)。

联系方式

数据集相关咨询或合作请联系：zhuzhuxia@hnu.edu.cn。

搜集汇总

数据集介绍

构建方式

在室内全景感知领域，360-AGD数据集的构建旨在填补现有数据在交互功能区域标注上的空白。该数据集从多个大规模全景数据源中系统采集图像，并依据场景复杂度划分为简单与困难两个子集。简单子集主要源自360-Indoor和Gibson数据集，呈现相对整洁的室内环境；困难子集则选自PanoContext和Sun360，涵盖视觉细节丰富、布局复杂的场景。标注过程中，针对19类功能属性，采用关键点监督策略：标注者在所有可见的非遮挡交互区域内放置多个关键点，再通过高斯核生成连续的概率热图，从而在保证标注效率的同时，精准捕捉全景中空间离散的功能区域。

使用方法

该数据集主要用于评估与推动全景室内环境中功能接地模型的发展。研究人员可利用360-AGD训练和测试模型在全景图像中定位与理解交互功能区域的能力。典型的使用流程包括：将等距柱状投影的全景图像作为输入，结合文本形式的功能类别描述，由模型输出对应的功能区域热图。评估时，采用KLD、SIM和NSS等标准指标，量化预测热图与真实标注在分布、相似性及关键点响应上的一致性。数据集的简单与困难划分便于进行消融实验与泛化性分析。通过此基准，能够系统探究模型对几何畸变、语义分散及稀疏监督等挑战的鲁棒性。

背景与挑战

背景概述

全景视觉感知是具身智能领域实现全局环境理解的关键，然而传统的可供性（Affordance）研究多局限于对象中心的视角化范式，难以匹配机器人在360°物理空间中的操作需求。为弥合这一鸿沟，湖南大学的研究团队于2026年提出了360-AGD数据集，这是首个专注于室内全景环境中整体可供性定位的高质量基准。该数据集旨在推动研究范式从孤立的对象级理解转向全景场景级的功能推理，其核心研究问题在于如何从单一全景图像中精确地定位并分割出与特定交互语义（如“坐”、“倚靠”）对应的所有功能区域，从而为服务机器人等具身智能体提供可靠的全局功能感知先验。

当前挑战

360-AGD数据集所针对的全景可供性定位任务面临多重挑战。在领域问题层面，该任务需克服由等距柱状投影（ERP）引入的严重几何畸变，尤其是在极地区域，这导致模型难以同时保持局部交互细节与全局功能结构。此外，全景图像中功能区域分布高度稀疏且语义分散，使得稀疏的初始激活难以聚合成语义连贯、边界一致的可供性区域。在数据构建层面，由于全景场景复杂，单个可供性类别（如“坐”）可能对应同一场景中多个空间上不连续的实例，为高质量标注带来巨大困难。为此，标注过程采用了基于关键点的监督策略，通过高斯核生成概率热图，以在保证标注效率的同时，捕捉这种多区域、空间离散的功能分布特性。

常用场景

经典使用场景

在具身智能领域，全景感知是实现机器人全局环境理解的核心需求。360-AGD数据集作为首个高质量室内全景可供性接地数据集，其经典使用场景在于为模型提供全景视角下的功能区域定位基准。该数据集通过标注室内场景中如“坐”、“倚靠”、“显示”等19类可供性交互区域，支持研究者开发能够从360度全景图像中精准识别并定位潜在交互区域的算法。这一场景突破了传统对象中心化及有限视场角模型的局限，使得算法能够学习在复杂、完整的室内空间布局中进行功能推理，为具身智能体的全局决策提供关键视觉先验。

解决学术问题

该数据集主要解决了全景视觉中可供性接地任务面临的三大核心学术问题。首先，它针对等距柱状投影引入的严重几何畸变问题，为研究几何感知的调制机制提供了数据基础。其次，数据集标注了全景空间中稀疏且分布不均的功能区域，有助于探索如何从稀疏激活中恢复拓扑连续的功能区域。最后，通过提供像素级热图标注，它支持研究在多尺度、多实例的复杂场景中，如何实现抽象可供性语义与具体视觉区域之间的精确对齐，从而有效抑制语义漂移。这些问题的解决推动了从对象级理解到场景级推理的范式转变。

实际应用

在实际应用层面，360-AGD数据集为服务机器人和增强现实系统在真实室内环境中的自主交互提供了关键支撑。基于该数据集训练的模型，能够使机器人在办公室、家庭等非结构化环境中，通过头戴式全景摄像头实时感知周围物体的功能属性，例如识别出可坐的椅子区域、可放置物品的桌面区域或可操作的开关区域。这种全局功能感知能力直接提升了机器人的任务规划与执行效率，使其能够更自然、更安全地与人类和环境进行交互，是推动具身智能走向实际落地的关键技术环节。

数据集最近研究