Mosaic3D-5.6M

Name: Mosaic3D-5.6M
Creator: NVIDIA, POSTECH
Published: 2025-02-05 02:18:50
License: 暂无描述

arXiv2025-02-05 更新2025-02-26 收录

下载链接：

https://nvlabs.github.io/Mosaic3D/

下载链接

链接失效反馈

官方服务：

资源简介：

Mosaic3D-5.6M是一个大规模的数据集，由ScanNet、ARKitScenes、ScanNet++、Matterport3D和Structured3D等多个3D场景数据集生成，包含560万个区域标注对，是迄今为止最大的3D遮罩-文本对数据集。该数据集通过结合最新的开放词汇图像分割模型和区域感知视觉语言模型，实现了精确的区域边界划分和丰富的语义描述，旨在推动开放词汇3D场景理解的研究。

Mosaic3D-5.6M is a large-scale dataset generated from multiple 3D scene datasets including ScanNet, ARKitScenes, ScanNet++, Matterport3D, and Structured3D. It contains 5.6 million region annotation pairs, making it the largest 3D mask-text pair dataset to date. By combining state-of-the-art open-vocabulary image segmentation models and region-aware vision-language models, this dataset enables precise region boundary delineation and rich semantic descriptions, aiming to advance research on open-vocabulary 3D scene understanding.

提供机构：

NVIDIA, POSTECH

创建时间：

2025-02-05

搜集汇总

数据集介绍

构建方式

Mosaic3D-5.6M数据集是通过整合ScanNet [22], ARKitScenes [5], ScanNet++ [93], Matterport3D [12], 和 Structured3D [101]等现有3D场景数据集，并利用先进的2D视觉基础模型（VFMs）和区域感知视觉语言模型（VLMs）自动生成大规模高质量的3D mask-text对。具体来说，该数据集使用Grounded-SAM [71] 和 SEEM [104]进行精确的开放词汇图像分割，以及Osprey [97]等区域感知VLMs生成详细描述。然后，通过将2D分割掩码投影到3D点云，创建3D mask-text对。

特点

Mosaic3D-5.6M数据集的特点在于其规模庞大、分割精确和描述丰富。它包含了超过30K的场景和5.6M的mask-text对，在规模上显著超过现有数据集。此外，该数据集使用Grounded-SAM [71] 和 SEEM [104]确保了精确的区域边界，并使用区域感知VLMs生成了详细、有上下文的描述，这些描述捕捉了对象的视觉属性和空间关系，提供了比简单对象标签更丰富的语义信息。

使用方法

Mosaic3D-5.6M数据集可用于训练开放词汇3D场景理解模型，包括语义和实例分割。该数据集可以用于训练Mosaic3D模型，该模型结合了一个使用对比学习训练的3D编码器和一个轻量级的mask解码器，用于开放词汇的3D语义和实例分割。此外，数据集可以用于评估和比较不同的3D场景理解模型，以验证其在开放词汇任务上的性能。

背景与挑战

背景概述

Mosaic3D-5.6M数据集是由NVIDIA和POSTECH的研究人员共同创建的，旨在解决开放词汇3D场景理解这一计算机视觉中的基本问题。该数据集创建于2025年，由超过30K个标注场景和5.6M个mask-text对组成，这些数据对由ScanNet、ARKitScenes、ScanNet++、Matterport3D和Structured3D等多个3D场景数据集生成。Mosaic3D-5.6M数据集的创建，旨在为开放词汇3D场景理解提供大规模、高质量的训练数据，以突破传统方法在预定义对象类别上的限制，使系统能够识别任意概念，不受预定义标签集的约束。Mosaic3D-5.6M数据集的创建，对相关领域产生了重要的影响，推动了开放词汇3D场景理解的发展。

当前挑战

Mosaic3D-5.6M数据集面临的挑战主要包括：1)创建过程中，需要精确分割3D区域，以准确描绘对象边界；2)需要生成全面的文本描述，以捕捉每个区域的特点；3)需要足够的数据集规模，包含大量标注场景。此外，构建大规模、高质量的3D mask-text对数据集仍然是一个昂贵且耗时的过程。为了解决这些挑战，研究人员提出了一种改进的数据生成流程，利用最先进的开放词汇图像分割模型和先进的区域感知视觉语言模型，以生成高质量的3D mask-text对。通过这种方法，Mosaic3D-5.6M数据集成为了目前最大的开放词汇3D场景数据集，为开放词汇3D场景理解的发展提供了重要的数据基础。

常用场景

经典使用场景

Mosaic3D-5.6M数据集的经典使用场景是开放词汇3D场景理解，特别是开放词汇3D语义分割和实例分割。该数据集提供了超过560万对掩码-文本对，每对包含精细的掩码和详细的文本描述，为训练和评估开放词汇3D场景理解模型提供了宝贵的资源。

实际应用

Mosaic3D-5.6M数据集在实际应用中，可用于开发能够理解和识别任意概念的3D场景理解系统，例如机器人、增强现实/虚拟现实、人机交互和自动驾驶汽车等。该数据集可以帮助这些系统更好地理解3D环境中的复杂空间关系，从而提高其性能和鲁棒性。

衍生相关工作

Mosaic3D-5.6M数据集的衍生相关工作包括开放词汇3D场景理解模型的训练和应用，例如Mosaic3D模型，该模型结合了3D编码器和轻量级掩码解码器，实现了开放词汇3D语义分割和实例分割。此外，该数据集还可以用于开发新的数据生成流程和模型训练方法，以进一步推动开放词汇3D场景理解领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集