Intent3D

github2025-02-21 更新2025-02-27 收录

下载链接：

https://github.com/WeitaiKang/Intent3D

下载链接

链接失效反馈

官方服务：

资源简介：

基于人类意图的RGB-D扫描中的3D对象检测数据集

3D Object Detection Dataset in RGB-D Scans Grounded in Human Intentions

创建时间：

2025-02-16

原始信息汇总

Intent3D数据集概述

1. 数据集简介

名称: Intent3D
任务: 基于人类意图的3D物体检测（3D intention grounding）
特点: 通过文本表达的人类意图（如"我想要支撑背部缓解压力的物体"）指导3D场景中感兴趣物体的检测
对比: 区别于传统3D视觉 grounding 依赖人工推理和参考，本任务实现观察和推理的自动化
发表: ICLR2025
论文: https://arxiv.org/abs/2405.18295
网页: https://weitaikang.github.io/Intent3D-webpage/

2. 数据组成

基础数据: 基于ScanNet v2数据集
预处理文件:
- train_v3scans.pkl: 打包的ScanNet训练集
- val_v3scans.pkl: 打包的ScanNet验证集
标注数据:
- intention_sentence/: 意图标注数据
- 下载地址: https://drive.google.com/drive/folders/1qcXQXngRVmDtAOOOa_2mhZ-ZOkP_XuDp?usp=sharing
检测框数据:
- group_free_pred_bboxes/: 物体检测器输出
- 下载地址: https://1drv.ms/u/s!AsnjK0KGPk10gYBjpUjJm7TkADS8vg?e=1AXJdR
模型检查点:
- gf_detector_l6o256.pth: PointNet++检查点
- 下载地址: https://1drv.ms/u/s!AsnjK0KGPk10gYBXZWDnWle7SvCNBg?e=SNyUK8

3. 数据准备流程

下载ScanNet v2原始数据
- 包含文件类型:
  - _vh_clean_2.ply
  - _vh_clean_2.labels.ply
  - .aggregation.json
  - _vh_clean_2.0.010000.segs.json
  - .txt
使用Pack_scan_files.py脚本打包为.pkl文件
下载额外标注和预训练模型

4. 基准性能

包含实验性能对比图(具体数据见论文)

5. 致谢

代码库继承自:
- EDA: https://github.com/yanmin-wu/EDA
- BUTD-DETR: https://github.com/nickgkan/butd_detr

6. 引用格式

bibtex @article{kang2024intent3d, title={Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention}, author={Kang, Weitai and Qu, Mengxue and Kini, Jyoti and Wei, Yunchao and Shah, Mubarak and Yan, Yan}, journal={arXiv preprint arXiv:2405.18295}, year={2024} }

7. 联系方式

作者: Weitai Kang
邮箱: k13711752197[AT]gmail.com
个人主页: https://weitaikang.github.io/

搜集汇总

数据集介绍

构建方式

Intent3D数据集的构建采用ScanNet v2数据集作为基础，通过人工标注的方式引入了基于人类意图的3D目标检测任务。数据集包含了训练集和验证集，每个集都打包为.pkl文件，同时包含了对应的意图句子注释、检测框以及模型预训练的权重文件。

使用方法

使用Intent3D数据集首先需要准备环境，安装所需的依赖库，并下载ScanNet数据集。然后，通过提供的脚本来打包数据集，下载注释文件和检测框。训练和评估模型时，需要指定数据集路径、日志目录、TensorBoard路径以及预训练模型的权重路径。

背景与挑战

背景概述

Intent3D数据集是在ICLR2025会议上提出的一个新型3D意图定位任务的数据集。该数据集由Kang Weitai等研究人员创建，旨在通过文本表达的人类意图，在3D扫描场景中自动检测感兴趣的对象。这一研究对于人机交互领域具有重大意义，能够为智能系统提供更符合人类需求的交互能力。数据集基于ScanNet v2构建，包含了丰富的3D场景点云数据和对应的意图标注，为3D视觉理解和意图推理的研究提供了宝贵资源。

当前挑战

该数据集面临的挑战主要在于：1) 3D意图定位任务的复杂性，需要算法能够准确理解并解析人类意图，并在三维空间中进行精确的对象检测；2) 数据集构建过程中，对ScanNet v2数据集的标注和预处理工作繁琐，且需要大量的人工参与来确保意图标注的准确性和一致性；3) 如何有效地将文本信息与3D场景数据结合，实现高效的意图识别和对象定位，是该技术在实际应用中需要克服的关键难题。

常用场景

经典使用场景

Intent3D数据集致力于三维场景中基于人类意图的对象检测任务，其经典使用场景在于通过文本形式表达的人类意图，自动化地识别出三维空间中与之相关的对象。这一过程将人类意图与三维场景理解相结合，为智能交互和人机协作提供了新的视角。

解决学术问题

该数据集解决了传统三维对象检测依赖于人类推理和参照物的问题，通过引入人类意图这一维度，使得对象检测更加直观且符合实际应用需求。它为三维视觉理解领域带来了新的研究方向，并推动了相关技术的进步。

实际应用

在实际应用中，Intent3D数据集可以被用于智能助理、增强现实以及虚拟现实等场景，以辅助用户在复杂三维环境中快速定位目标对象，提高交互效率。

数据集最近研究