SceneVerse - 百万级别的3D视觉语言数据集

Name: SceneVerse - 百万级别的3D视觉语言数据集
Creator: 北京通用人工智能研究院
Published: 2024-03-06 00:00:00
License: 暂无描述

github2024-03-06 更新2024-05-31 收录

下载链接：

https://github.com/scene-verse/sceneverse

下载链接

链接失效反馈

官方服务：

资源简介：

We propose SceneVerse, the first million-scale 3D vision-language dataset with 68K 3D indoor scenes and 2.5M vision-language pairs. We demonstrate the scaling effect by (i) achieving state-of-the-art on all existing 3D visual grounding benchmarks and (ii) showcasing zero-shot transfer capabilities with our GPS (Grounded Pre-training for Scenes) model.

本研究提出SceneVerse，这是首个百万级规模的3D视觉语言数据集，包含6.8万个3D室内场景及250万条视觉语言样本对。我们通过两组实验验证了其数据缩放效应：(i) 在所有现有3D视觉锚定基准测试集上均取得当前最优性能；(ii) 依托我们提出的GPS（Grounded Pre-training for Scenes，场景锚定预训练）模型，展现出零样本（Zero-shot）迁移能力。

提供机构：

北京通用人工智能研究院

创建时间：

2024-03-06

原始信息汇总

数据集概述

名称: SceneVerse

描述: SceneVerse 是一个大规模的3D视觉-语言数据集，包含68,000个3D室内场景和250万个视觉-语言对。该数据集旨在支持基于场景的视觉-语言学习，通过大规模数据实现先进的3D视觉定位基准测试，并展示零样本迁移能力。

数据集内容

场景数量: 68,000个3D室内场景
视觉-语言对数量: 2,500,000个
数据类型: 包括对象描述、场景描述、参考注释等多种语言类型。

数据集使用

下载方式: 数据托管在G-drive，需通过此表单申请下载链接。
数据组织: 数据以压缩文件形式提供，解压后包含扫描数据、实例ID到标签映射、对齐的场景点云和语言注释等。
数据可视化: 提供脚本用于可视化场景和语言数据。

环境配置

Python环境: 推荐使用Python 3.9，并安装特定的PyTorch版本（2.2.0）和相关库如numpy和open3d。

数据集更新

最新消息: 2024年3月发布数据集，训练和推理代码即将发布。

数据集引用

bibtex @article{jia2024sceneverse, title={SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding}, author={Jia, Baoxiong and Chen, Yixin and Yu, Huangyue and Wang, Yan and Niu, Xuesong and Liu, Tengyu and Li, Qing and Huang, Siyuan}, journal={arXiv preprint arXiv:2401.09340}, year={2024} }

搜集汇总

数据集介绍

构建方式

SceneVerse数据集的构建基于大规模的3D室内场景和视觉语言对，涵盖了68,000个3D场景和250万对视觉语言数据。通过整合多个公开数据集，如ScanNet、MultiScan、ARKitScenes等，数据集实现了多样性和广泛性。每个场景均配备了详细的标注，包括对象描述、场景描述以及多种类型的参考注释，确保了数据的高质量和丰富性。

特点

SceneVerse数据集的主要特点在于其规模和多样性。首先，它是首个百万级别的3D视觉语言数据集，提供了前所未有的数据量和复杂度。其次，数据集包含了多种类型的注释，如对象描述、场景描述和多对象关系注释，支持多种视觉语言任务的研究。此外，数据集还展示了零样本迁移能力，通过GPS模型在未见过的数据上表现出色。

使用方法

使用SceneVerse数据集进行研究或开发时，用户可以下载数据并根据提供的文档进行预处理和可视化。数据集支持多种任务，包括3D视觉定位、场景理解和零样本迁移。训练和推理代码以及预训练模型检查点均已公开，用户可以根据需求选择合适的模型进行微调或从头训练。详细的训练和测试指南可在TRAIN.md文件中找到。

背景与挑战

背景概述

SceneVerse数据集由Baoxiong Jia、Yixin Chen等研究人员于2024年创建，是首个百万级别的3D视觉语言数据集，包含68,000个3D室内场景和250万对视觉语言数据。该数据集的核心研究问题在于扩展3D视觉语言学习的规模，以实现更精确的场景理解。SceneVerse不仅在现有的3D视觉定位基准上达到了最先进的水平，还展示了其GPS模型在零样本迁移任务中的潜力。这一数据集的推出，极大地推动了3D视觉语言研究领域的发展，为未来的多模态学习提供了丰富的资源和新的研究方向。

当前挑战

SceneVerse数据集在构建过程中面临了多重挑战。首先，整合和标注如此大规模的3D视觉语言数据需要高度的技术复杂性和大量的计算资源。其次，确保数据集中的场景和语言描述的准确性和一致性是一个巨大的挑战，尤其是在处理多源数据时。此外，如何在保持数据多样性的同时，确保数据的质量和可用性，也是该数据集面临的重要问题。最后，如何有效地利用SceneVerse数据集进行模型训练和评估，以实现高效的3D视觉语言学习，仍然是研究人员需要解决的关键问题。

常用场景

经典使用场景

SceneVerse数据集在3D视觉语言学习领域中具有广泛的应用，尤其在场景理解任务中表现卓越。其经典使用场景包括：通过大规模的3D室内场景和视觉语言对，训练模型以实现3D视觉定位和场景描述的精确匹配。此外，SceneVerse还支持零样本迁移学习，使得模型能够在未见过的场景中进行有效推理。

解决学术问题

SceneVerse数据集解决了3D视觉语言学习中的多个关键学术问题，如大规模数据集的缺乏、3D场景理解的复杂性以及零样本迁移能力的不足。通过提供丰富的3D场景和视觉语言对，SceneVerse显著提升了模型的泛化能力和场景理解精度，为相关领域的研究提供了坚实的基础。

衍生相关工作

基于SceneVerse数据集，研究者们开发了多种相关工作，如GPS（Grounded Pre-training for Scenes）模型，该模型在3D视觉定位任务中表现出色。此外，SceneVerse还启发了对3D场景图生成和多模态数据融合的研究，推动了3D视觉语言学习领域的技术进步。

以上内容由遇见数据集搜集并总结生成