AGPIL

github2025-04-27 更新2025-04-12 收录

下载链接：

https://github.com/cn-hezhu/LMAffordance3D

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集支持基于语言指令、视觉观察和交互的3D对象功能定位任务，包括从全视角、部分视角和旋转视角对对象的功能估计。

This dataset supports 3D object functional localization tasks based on linguistic instructions, visual observations and interactions, which cover functional estimation of objects from full-view, partial-view and rotational-view perspectives.

创建时间：

2025-04-01

原始信息汇总

LMAffordance3D 数据集概述

数据集基本信息

名称: LMAffordance3D
任务: 基于语言指令、视觉观察和交互的3D物体可供性定位
论文: 已被CVPR 2025接收
项目地址: https://sites.google.com/view/lmaffordance3d

数据集内容

数据组成: 包含从全视角、部分视角和旋转视角的物体可供性估计
数据下载: Google Drive
目录结构:

LAVIS └───data └─── Full_view │ ├── Seen │ │ ├── Description │ │ ├── Img │ │ └── Point │ └── Unseen │ ├── Description │ ├── Img │ └── Point └─── Partial_view │ ├── Seen │ │ ├── Description │ │ ├── Img │ │ └── Point │ └── Unseen │ ├── Description │ ├── Img │ └── Point └─── Rotation_view ├── Seen │ ├── Description │ ├── Img │ └── Point └── Unseen ├── Description ├── Img └── Point

安装与运行

安装步骤:

git clone https://github.com/cn-hezhu/LMAffordance3D.git cd LMAffordance3D conda create -n lmaffordance3d python=3.8 -y conda activate lmaffordance3d pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pip install requirements.txt -r
运行命令: python cd LAVIS python train.py --cfg-path xxx.yaml python visualization.py

致谢

LAVIS
IAGNet

搜集汇总

数据集介绍

构建方式

在三维物体可供性研究领域，AGPIL数据集通过多模态数据采集方法构建而成。研究团队从认知科学视角出发，采集了包含语言指令、视觉观察和交互数据的综合信息。数据集特别设计了全视角、部分视角和旋转视角三种观察条件，以模拟真实物理世界中因观察角度、物体旋转或空间遮挡导致的局部观测场景。每个样本包含点云数据、图像数据和文本描述三部分，并按可见物体和未见物体进行分类存储，确保数据结构的系统性和完整性。

特点

AGPIL数据集作为首个融合语言指导的三维可供性定位数据集，其核心价值在于多模态特征的有机结合。数据集包含丰富的视角变化，能够全面反映真实场景中的观测限制。点云数据提供精确的三维几何信息，图像数据保留物体表面纹理特征，而自然语言指令则赋予数据语义理解维度。特别设计的'Seen'和'Unseen'分类为模型泛化能力评估提供了可靠基准，旋转视角数据则增强了模型对物体空间变换的适应能力。

使用方法

使用AGPIL数据集需遵循标准化的处理流程。研究者需从指定云存储下载数据并按预设目录结构组织，通过配置不同的YAML文件可灵活选择训练视角和物体类别。数据集与LAVIS框架深度集成，支持端到端的模型训练和评估。可视化工具允许用户直观检查点云与图像的对应关系，而模块化的设计使得研究者能够便捷地扩展新的功能。训练过程中可通过修改配置文件路径切换不同视角条件，为多模态学习提供充分的实验自由度。

背景与挑战

背景概述

AGPIL数据集由认知科学启发，专注于三维物体可供性定位任务，旨在通过语言指令、视觉观察和交互信息，精准识别三维空间中可操作物体的位置。该数据集由研究团队在2025年构建，并发表于CVPR 2025，标志着其在计算机视觉与机器人交互领域的重要突破。数据集包含全视角、部分视角和旋转视角下的物体可供性估计，为智能体感知与行动之间的桥梁提供了丰富的数据支持。其多模态特性推动了语言引导的三维空间理解技术的发展，对智能机器人操作任务具有深远影响。

当前挑战

AGPIL数据集面临的挑战主要体现在两方面：在领域问题层面，三维物体可供性定位需克服观察视角受限、物体旋转及空间遮挡导致的局部观测问题，这对模型的几何推理与语义理解能力提出了更高要求；在构建层面，数据集需协调多模态数据（点云、图像、语言）的精确对齐与标注，同时确保不同视角下数据的一致性与完整性。此外，模型需在未见过的实验设置中保持鲁棒性，这对数据多样性与算法泛化能力构成了双重考验。

常用场景

经典使用场景

在三维物体可操作性研究中，AGPIL数据集通过结合语言指令、视觉观察和交互数据，为智能体提供了理解物体可操作性的多模态基础。该数据集特别适用于机器人抓取任务，通过全视角、部分视角和旋转视角的数据，帮助智能体在不同观察条件下准确识别物体的可操作性区域。

解决学术问题

AGPIL数据集解决了三维物体可操作性定位中的关键问题，包括部分观察条件下的物体识别、视角变化带来的语义歧义以及语言指令与视觉数据的对齐。其多模态特性为认知科学与计算机视觉的交叉研究提供了重要支持，推动了具身智能领域的发展。

衍生相关工作

基于AGPIL数据集，研究者们开发了首个多模态语言引导的三维可操作性定位网络LMAffordance3D。该工作启发了后续如IAGNet等三维交互理解模型的创新，并为LAVIS等开源框架提供了重要基准测试数据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集