YangCaoCS/Open-Vocabulary-SUN-RGBD
收藏Hugging Face2024-06-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/YangCaoCS/Open-Vocabulary-SUN-RGBD
下载链接
链接失效反馈官方服务:
资源简介:
The Open-Vocabulary SUN-RGBD datasets from CoDA and CoDAv2.
If the dataset is helpful, please cite:
```
@inproceedings{dai2017scannet,
title={ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes},
author={Dai, Angela and Chang, Angel X. and Savva, Manolis and Halber, Maciej and Funkhouser, Thomas and Nie{\ss}ner, Matthias},
booktitle = {Proc. Computer Vision and Pattern Recognition (CVPR), IEEE},
year = {2017}
}
@inproceedings{cao2023coda,
title={CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection},
author={Cao, Yang and Zeng, Yihan and Xu, Hang and Xu, Dan},
booktitle={NeurIPS},
year={2023}
}
@article{cao2024collaborative,
title={Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection},
author={Yang Cao and Yihan Zeng and Hang Xu and Dan Xu},
journal={arXiv preprint arXiv:2406.00830},
year={2024}
}
```
The Open-Vocabulary SUN-RGBD datasets from CoDA and CoDAv2.
提供机构:
YangCaoCS
原始信息汇总
Open-Vocabulary SUN-RGBD 数据集
引用
-
ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes
- 作者: Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner
- 会议: Proc. Computer Vision and Pattern Recognition (CVPR), IEEE
- 年份: 2017
-
CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection
- 作者: Yang Cao, Yihan Zeng, Hang Xu, Dan Xu
- 会议: NeurIPS
- 年份: 2023
-
Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection
- 作者: Yang Cao, Yihan Zeng, Hang Xu, Dan Xu
- 期刊: arXiv preprint arXiv:2406.00830
- 年份: 2024
搜集汇总
数据集介绍

构建方式
在三维场景理解领域,开放词汇目标检测面临标注成本高昂与类别覆盖有限的挑战。YangCaoCS/Open-Vocabulary-SUN-RGBD数据集应运而生,它源自CoDA与CoDAv2两项前沿工作的构建流程。该数据集以经典的SUN-RGBD基准为基础,通过协同新颖框发现与跨模态对齐技术,将原始RGB-D场景中的封闭类别标签扩展至开放词汇空间。构建过程中,研究者利用视觉-语言模型的强大表征能力,对点云与图像数据进行联合标注,从而生成包含丰富语义信息的多模态标注数据。这种方法不仅保留了原始场景的几何与颜色细节,还赋予每个物体以灵活的自然语言描述,为开放词汇3D检测提供了可靠的训练与评估基础。
特点
该数据集的核心特点在于其开放词汇属性与多模态融合设计。与传统封闭类别数据集不同,Open-Vocabulary-SUN-RGBD支持对任意语义类别的识别,极大提升了模型在真实世界中的泛化能力。数据集中的每个实例均关联点云、RGB图像与文本描述,形成三重模态对齐,这为跨模态学习任务提供了天然的数据支撑。此外,数据规模覆盖SUN-RGBD的全部场景,包含多样化的室内布局与物体种类,保证了数据分布的广泛性与代表性。其标注质量经过严格验证,通过协同发现机制减少了人工标注的偏差,确保了语义边界的准确性,从而在开放词汇检测研究中树立了新的评测标准。
使用方法
使用该数据集时,研究者可将其直接用于开放词汇3D目标检测模型的训练与评测。具体而言,用户需加载点云与对应RGB图像作为输入,配合文本提示(如类别名称或描述)进行模型推理。数据集以标准格式组织,便于与常见深度学习框架(如PyTorch)集成。建议结合CoDA或CoDAv2的官方代码库,利用其预训练模型进行微调或零样本评估。在实验设置中,可将数据集划分为训练集与测试集,并采用平均精度(mAP)等指标衡量检测性能。对于跨模态对齐研究,还可利用文本-点云对进行特征学习,探索视觉与语言空间的语义映射关系。
背景与挑战
背景概述
Open-Vocabulary SUN-RGBD数据集由Yang Cao及其合作者于2023年提出,旨在推动开放词汇三维场景理解的研究。该数据集基于经典的SUN-RGBD基准,由Shuran Song等人于2015年创建,最初用于RGB-D场景理解任务。核心研究问题在于如何使模型能够识别训练中未见过的物体类别,从而突破传统封闭集检测的局限。通过引入跨模态对齐与协同发现机制,该数据集为开放词汇三维目标检测提供了重要评估平台,对计算机视觉与机器人领域的场景感知能力提升产生了深远影响。
当前挑战
该数据集面临的核心挑战包括:首先,三维开放词汇检测需解决未见类别的泛化问题,即模型需从有限可见类学习以识别任意新类别,这要求跨模态特征的高度对齐与语义迁移。其次,构建过程中需处理RGB-D数据中深度与视觉信息的异构性,以及标注噪声对协同发现机制的干扰。此外,如何设计高效的协作式检测框架以平衡计算开销与识别精度,仍是当前技术瓶颈所在。
常用场景
经典使用场景
在三维场景理解的研究浪潮中,Open-Vocabulary SUN-RGBD数据集为开放词汇的3D目标检测提供了关键基准。其经典使用场景聚焦于模型在RGB-D图像中识别并定位未见类别的物体,例如在室内环境中检测训练时未出现的家具或器具。该数据集结合了SUN-RGBD的丰富场景标注与CoDA系列方法的开放词汇思想,使研究者能够评估模型在零样本条件下的泛化能力。通过引入跨模态对齐与新颖框发现机制,它推动了从封闭集到开放集检测的范式转变,成为验证3D视觉模型语义理解广度的核心工具。
解决学术问题
该数据集直面传统3D目标检测局限于预定义类别的根本困境,解决了开放词汇场景下模型对未见过物体的识别与定位难题。在学术研究中,它打破了固定类别列表的桎梏,使模型能够利用视觉与语言的多模态融合,从文本描述中推理新物体的空间位置。这一突破不仅提升了场景理解的灵活性,还促进了从数据驱动到知识驱动的跨越,为构建通用型3D感知系统奠定了方法论基础。其意义在于将2D开放词汇检测的成功经验移植至三维空间,推动了计算机视觉领域在语义丰富度和适应性上的重要进展。
衍生相关工作
该数据集衍生了一系列开创性工作,其中CoDA和CoDAv2作为核心框架,首次提出协同新颖框发现与跨模态对齐策略,实现了3D开放词汇检测的突破。后续研究在此基础上发展了基于语言引导的注意力机制与对比学习范式,进一步提升了零样本检测的精度。相关论文发表于NeurIPS和TPAMI等顶级会议期刊,催生了诸如基于扩散模型的三维开放词汇分割、多模态大模型在3D场景中的推理等方向。这些工作共同构建了从数据集到算法的良性生态,持续推动着3D视觉向通用智能迈进。
以上内容由遇见数据集搜集并总结生成



