Intent3D
收藏github2025-02-21 更新2025-02-27 收录
下载链接:
https://github.com/WeitaiKang/Intent3D
下载链接
链接失效反馈官方服务:
资源简介:
基于人类意图的RGB-D扫描中的3D对象检测数据集
3D Object Detection Dataset in RGB-D Scans Grounded in Human Intentions
创建时间:
2025-02-16
原始信息汇总
Intent3D数据集概述
1. 数据集简介
- 名称: Intent3D
- 任务: 基于人类意图的3D物体检测(3D intention grounding)
- 特点: 通过文本表达的人类意图(如"我想要支撑背部缓解压力的物体")指导3D场景中感兴趣物体的检测
- 对比: 区别于传统3D视觉 grounding 依赖人工推理和参考,本任务实现观察和推理的自动化
- 发表: ICLR2025
- 论文: https://arxiv.org/abs/2405.18295
- 网页: https://weitaikang.github.io/Intent3D-webpage/
2. 数据组成
- 基础数据: 基于ScanNet v2数据集
- 预处理文件:
train_v3scans.pkl: 打包的ScanNet训练集val_v3scans.pkl: 打包的ScanNet验证集
- 标注数据:
intention_sentence/: 意图标注数据- 下载地址: https://drive.google.com/drive/folders/1qcXQXngRVmDtAOOOa_2mhZ-ZOkP_XuDp?usp=sharing
- 检测框数据:
group_free_pred_bboxes/: 物体检测器输出- 下载地址: https://1drv.ms/u/s!AsnjK0KGPk10gYBjpUjJm7TkADS8vg?e=1AXJdR
- 模型检查点:
gf_detector_l6o256.pth: PointNet++检查点- 下载地址: https://1drv.ms/u/s!AsnjK0KGPk10gYBXZWDnWle7SvCNBg?e=SNyUK8
3. 数据准备流程
- 下载ScanNet v2原始数据
- 包含文件类型:
_vh_clean_2.ply_vh_clean_2.labels.ply.aggregation.json_vh_clean_2.0.010000.segs.json.txt
- 包含文件类型:
- 使用
Pack_scan_files.py脚本打包为.pkl文件 - 下载额外标注和预训练模型
4. 基准性能
- 包含实验性能对比图(具体数据见论文)
5. 致谢
- 代码库继承自:
- EDA: https://github.com/yanmin-wu/EDA
- BUTD-DETR: https://github.com/nickgkan/butd_detr
6. 引用格式
bibtex @article{kang2024intent3d, title={Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention}, author={Kang, Weitai and Qu, Mengxue and Kini, Jyoti and Wei, Yunchao and Shah, Mubarak and Yan, Yan}, journal={arXiv preprint arXiv:2405.18295}, year={2024} }
7. 联系方式
- 作者: Weitai Kang
- 邮箱: k13711752197[AT]gmail.com
- 个人主页: https://weitaikang.github.io/
搜集汇总
数据集介绍

构建方式
Intent3D数据集的构建采用ScanNet v2数据集作为基础,通过人工标注的方式引入了基于人类意图的3D目标检测任务。数据集包含了训练集和验证集,每个集都打包为.pkl文件,同时包含了对应的意图句子注释、检测框以及模型预训练的权重文件。
使用方法
使用Intent3D数据集首先需要准备环境,安装所需的依赖库,并下载ScanNet数据集。然后,通过提供的脚本来打包数据集,下载注释文件和检测框。训练和评估模型时,需要指定数据集路径、日志目录、TensorBoard路径以及预训练模型的权重路径。
背景与挑战
背景概述
Intent3D数据集是在ICLR2025会议上提出的一个新型3D意图定位任务的数据集。该数据集由Kang Weitai等研究人员创建,旨在通过文本表达的人类意图,在3D扫描场景中自动检测感兴趣的对象。这一研究对于人机交互领域具有重大意义,能够为智能系统提供更符合人类需求的交互能力。数据集基于ScanNet v2构建,包含了丰富的3D场景点云数据和对应的意图标注,为3D视觉理解和意图推理的研究提供了宝贵资源。
当前挑战
该数据集面临的挑战主要在于:1) 3D意图定位任务的复杂性,需要算法能够准确理解并解析人类意图,并在三维空间中进行精确的对象检测;2) 数据集构建过程中,对ScanNet v2数据集的标注和预处理工作繁琐,且需要大量的人工参与来确保意图标注的准确性和一致性;3) 如何有效地将文本信息与3D场景数据结合,实现高效的意图识别和对象定位,是该技术在实际应用中需要克服的关键难题。
常用场景
经典使用场景
Intent3D数据集致力于三维场景中基于人类意图的对象检测任务,其经典使用场景在于通过文本形式表达的人类意图,自动化地识别出三维空间中与之相关的对象。这一过程将人类意图与三维场景理解相结合,为智能交互和人机协作提供了新的视角。
解决学术问题
该数据集解决了传统三维对象检测依赖于人类推理和参照物的问题,通过引入人类意图这一维度,使得对象检测更加直观且符合实际应用需求。它为三维视觉理解领域带来了新的研究方向,并推动了相关技术的进步。
实际应用
在实际应用中,Intent3D数据集可以被用于智能助理、增强现实以及虚拟现实等场景,以辅助用户在复杂三维环境中快速定位目标对象,提高交互效率。
数据集最近研究
最新研究方向
Intent3D数据集旨在推进三维场景中基于人类意图的对象检测研究。该数据集通过将文本形式的意图与三维场景中的对象检测相结合,开辟了3D视觉 grounding任务的新方向。其核心任务是通过文本描述的意图来识别场景中的特定对象,这一研究对于提升机器理解人类需求和情感的能力具有重要意义。近期研究集中于优化检测算法以更准确地理解和响应复杂的人类意图,这对于智能家居、辅助机器人等领域的发展具有深远影响。
以上内容由遇见数据集搜集并总结生成



