AGPIL

Name: AGPIL
Creator: 浙江大学, 阿里巴巴云
Published: 2025-04-07 13:38:23
License: 暂无描述

arXiv2025-04-07 更新2025-04-09 收录

下载链接：

https://sites.google.com/view/lmaffordance3d

下载链接

链接失效反馈

官方服务：

资源简介：

AGPIL数据集是由浙江大学和阿里巴巴云共同创建的多模态、多视角三维物体可用性定位数据集。该数据集包含点云、图像和语言指令，共30972个点云-图像-文本对，涵盖17种可用性类别和23种物体类别。数据集分为全视角、部分视角和旋转视角，并在 seen 和 unseen 设置下测试模型的泛化性能。该数据集旨在支持基于语言指令、视觉观察和交互的三维物体可用性定位任务。

The AGPIL dataset is a multimodal, multi-view 3D object affordance localization dataset jointly created by Zhejiang University and Alibaba Cloud. It contains point clouds, images, and language instructions, with a total of 30,972 point-cloud-image-text pairs covering 17 affordance categories and 23 object categories. The dataset is divided into full-view, partial-view and rotated-view settings, and is used to evaluate the generalization performance of models under seen and unseen conditions. This dataset aims to support 3D object affordance localization tasks based on language instructions, visual observations and interactions.

提供机构：

浙江大学, 阿里巴巴云

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

AGPIL数据集构建过程体现了多模态数据融合的前沿理念，通过系统整合点云、图像和语言指令三种模态数据。数据集采集自3D AffordanceNet的点云数据以及AGD20K和PIAD的交互图像，并创新性地采用GPT-4o生成语言指令，辅以严格的质量评估机制。针对真实场景的复杂性，数据集特别设计了全视角、部分视角和旋转视角三种观察模式，包含30972个点云-图像-文本三元组，覆盖23个物体类别和17种功能可供性类型。

特点

该数据集最显著的特点是实现了多模态与多视角的有机统一。在模态维度上，同时包含几何信息（点云）、视觉上下文（图像）和语义指导（语言指令）；在视角维度上，完整覆盖全视角、部分遮挡和物体旋转等现实场景。数据集还创新性地引入概率化的可供性评分标注，每个点云包含2048个点的17维可供性概率矩阵。特别设计的seen/unseen实验设置能有效评估模型在已知类别和未知类别上的泛化能力。

使用方法

使用AGPIL数据集时，建议采用端到端的多模态学习框架。典型流程包括：通过ResNet18提取图像特征，PointNet++提取点云特征，利用多层感知机将空间特征投影到文本语义空间。语言指令经LLaVA等视觉语言模型编码后，与视觉特征进行跨模态融合。最终通过解码器生成可供性热力图。训练时可采用焦点损失和dice损失的加权组合，并建议实施在线数据配对增强策略。评估指标应综合考量AUC、aIoU、SIM和MAE四个维度，特别关注模型在unseen设置下的跨类别泛化表现。

背景与挑战

背景概述

AGPIL数据集是由浙江大学和阿里巴巴云的研究团队于2024年提出的首个多模态、多视角的3D物体可供性（affordance）定位数据集。该数据集旨在解决基于语言指令、视觉观察和交互的3D物体可供性定位问题，为具身智能（embodied intelligence）领域提供了重要的研究基础。AGPIL包含30,972个点云-图像-文本三元组，涵盖17种可供性类别和23种物体类别，并提供了全视角、部分视角和旋转视角的数据，以模拟真实世界中的观察限制。该数据集的建立受到认知科学的启发，强调了多模态信息融合在可供性理解中的重要性。

当前挑战

AGPIL数据集面临的挑战主要体现在两个方面：领域问题和构建过程。在领域问题方面，3D物体可供性定位任务需要处理复杂的多模态信息融合问题，包括语言指令的语义理解、点云的几何特征提取以及图像中的交互信息分析。此外，由于真实环境中物体可能存在部分遮挡或旋转，模型需要具备强大的泛化能力来处理不完整观察数据。在构建过程中，研究人员需要解决多模态数据对齐的难题，包括点云与图像的配对、语言指令的生成与评分等。同时，数据集还需要覆盖丰富的物体类别和可供性类型，以确保模型的广泛适用性。

常用场景

经典使用场景

在机器人交互和三维场景理解领域，AGPIL数据集通过融合语言指令、视觉观察和交互数据，为三维物体可供性（affordance）的定位任务提供了多模态支持。其经典使用场景包括智能机器人根据人类指令精确抓取物体，以及在复杂环境中识别物体的可操作区域。数据集涵盖全视角、部分视角和旋转视角，模拟了真实世界中因遮挡或视角限制导致的不完整观测情况，为模型训练提供了丰富的视角变化和数据多样性。

解决学术问题

AGPIL数据集解决了三维物体可供性研究中的多模态融合与泛化能力不足问题。传统方法依赖单一模态（如点云或图像），难以处理语言指令与几何特征的协同理解。该数据集通过引入语言引导的多模态框架，支持从部分观测中推理物体功能，显著提升了模型在未见物体类别和视角下的性能。其标注的17类可供性概率热图，为细粒度部分级预测任务提供了基准，推动了机器人操作、人机交互等领域的算法进步。

衍生相关工作

AGPIL催生了多项基于多模态融合的衍生研究，如LMAffordance3D框架首次将视觉语言模型引入三维可供性任务，通过跨模态特征投影实现语义与几何对齐。后续工作扩展至零样本学习（如VLM-Grounder）和对比学习方向，部分研究则聚焦于数据高效利用（如在线配对增强策略）。该数据集也被用于评估大语言模型在具身智能中的世界知识迁移能力，推动了3D AffordanceNet、OpenAD等基准方法的性能迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集