five

AGPIL

收藏
github2025-04-27 更新2025-04-12 收录
下载链接:
https://github.com/cn-hezhu/LMAffordance3D
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集支持基于语言指令、视觉观察和交互的3D对象功能定位任务,包括从全视角、部分视角和旋转视角对对象的功能估计。

This dataset supports 3D object functional localization tasks based on linguistic instructions, visual observations and interactions, which cover functional estimation of objects from full-view, partial-view and rotational-view perspectives.
创建时间:
2025-04-01
原始信息汇总

LMAffordance3D 数据集概述

数据集基本信息

数据集内容

  • 数据组成: 包含从全视角、部分视角和旋转视角的物体可供性估计

  • 数据下载: Google Drive

  • 目录结构:

    LAVIS └───data └─── Full_view │ ├── Seen │ │ ├── Description │ │ ├── Img │ │ └── Point │ └── Unseen │ ├── Description │ ├── Img │ └── Point └─── Partial_view │ ├── Seen │ │ ├── Description │ │ ├── Img │ │ └── Point │ └── Unseen │ ├── Description │ ├── Img │ └── Point └─── Rotation_view ├── Seen │ ├── Description │ ├── Img │ └── Point └── Unseen ├── Description ├── Img └── Point

安装与运行

  • 安装步骤:

    git clone https://github.com/cn-hezhu/LMAffordance3D.git cd LMAffordance3D conda create -n lmaffordance3d python=3.8 -y conda activate lmaffordance3d pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pip install requirements.txt -r

  • 运行命令: python cd LAVIS python train.py --cfg-path xxx.yaml python visualization.py

致谢

搜集汇总
数据集介绍
main_image_url
构建方式
在三维物体可供性研究领域,AGPIL数据集通过多模态数据采集方法构建而成。研究团队从认知科学视角出发,采集了包含语言指令、视觉观察和交互数据的综合信息。数据集特别设计了全视角、部分视角和旋转视角三种观察条件,以模拟真实物理世界中因观察角度、物体旋转或空间遮挡导致的局部观测场景。每个样本包含点云数据、图像数据和文本描述三部分,并按可见物体和未见物体进行分类存储,确保数据结构的系统性和完整性。
特点
AGPIL数据集作为首个融合语言指导的三维可供性定位数据集,其核心价值在于多模态特征的有机结合。数据集包含丰富的视角变化,能够全面反映真实场景中的观测限制。点云数据提供精确的三维几何信息,图像数据保留物体表面纹理特征,而自然语言指令则赋予数据语义理解维度。特别设计的'Seen'和'Unseen'分类为模型泛化能力评估提供了可靠基准,旋转视角数据则增强了模型对物体空间变换的适应能力。
使用方法
使用AGPIL数据集需遵循标准化的处理流程。研究者需从指定云存储下载数据并按预设目录结构组织,通过配置不同的YAML文件可灵活选择训练视角和物体类别。数据集与LAVIS框架深度集成,支持端到端的模型训练和评估。可视化工具允许用户直观检查点云与图像的对应关系,而模块化的设计使得研究者能够便捷地扩展新的功能。训练过程中可通过修改配置文件路径切换不同视角条件,为多模态学习提供充分的实验自由度。
背景与挑战
背景概述
AGPIL数据集由认知科学启发,专注于三维物体可供性定位任务,旨在通过语言指令、视觉观察和交互信息,精准识别三维空间中可操作物体的位置。该数据集由研究团队在2025年构建,并发表于CVPR 2025,标志着其在计算机视觉与机器人交互领域的重要突破。数据集包含全视角、部分视角和旋转视角下的物体可供性估计,为智能体感知与行动之间的桥梁提供了丰富的数据支持。其多模态特性推动了语言引导的三维空间理解技术的发展,对智能机器人操作任务具有深远影响。
当前挑战
AGPIL数据集面临的挑战主要体现在两方面:在领域问题层面,三维物体可供性定位需克服观察视角受限、物体旋转及空间遮挡导致的局部观测问题,这对模型的几何推理与语义理解能力提出了更高要求;在构建层面,数据集需协调多模态数据(点云、图像、语言)的精确对齐与标注,同时确保不同视角下数据的一致性与完整性。此外,模型需在未见过的实验设置中保持鲁棒性,这对数据多样性与算法泛化能力构成了双重考验。
常用场景
经典使用场景
在三维物体可操作性研究中,AGPIL数据集通过结合语言指令、视觉观察和交互数据,为智能体提供了理解物体可操作性的多模态基础。该数据集特别适用于机器人抓取任务,通过全视角、部分视角和旋转视角的数据,帮助智能体在不同观察条件下准确识别物体的可操作性区域。
解决学术问题
AGPIL数据集解决了三维物体可操作性定位中的关键问题,包括部分观察条件下的物体识别、视角变化带来的语义歧义以及语言指令与视觉数据的对齐。其多模态特性为认知科学与计算机视觉的交叉研究提供了重要支持,推动了具身智能领域的发展。
衍生相关工作
基于AGPIL数据集,研究者们开发了首个多模态语言引导的三维可操作性定位网络LMAffordance3D。该工作启发了后续如IAGNet等三维交互理解模型的创新,并为LAVIS等开源框架提供了重要基准测试数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作