MMScan

Name: MMScan
Creator: 上海人工智能实验室
Published: 2024-06-14 01:59:30
License: 暂无描述

arXiv2024-06-14 更新2024-06-21 收录

下载链接：

https://github.com/OpenRobotLab/EmbodiedScan

下载链接

链接失效反馈

官方服务：

资源简介：

MMScan是由上海人工智能实验室联合多所顶尖大学共同创建的大型多模态3D场景数据集，包含6.9M层次化的语言标注，覆盖从物体到区域级别的全面理解。数据集基于现有的3D扫描数据构建，包含1.4M元标注的描述，涉及109k物体和7.7k区域，用于生成多样化的3D视觉定位和问答样本。创建过程中，采用视觉语言模型（VLM）初始化标注，并通过人工校正确保标注的自然性、正确性和全面性。MMScan的应用领域广泛，主要用于训练和评估3D视觉定位和大型语言模型，旨在解决现有模型在复杂3D场景理解上的局限性。

MMScan is a large-scale multimodal 3D scene dataset jointly created by the Shanghai AI Laboratory and multiple top-tier universities. It contains 6.9 million hierarchical linguistic annotations, enabling comprehensive understanding ranging from object-level to region-level. Built upon existing 3D scan data, the dataset includes 1.4 million meta-annotated descriptions covering 109k objects and 7.7k regions, and is used to generate diverse 3D visual grounding and question-answering samples. During its creation, visual language models (VLMs) were employed to initialize annotations, followed by human verification to ensure the naturalness, correctness, and comprehensiveness of the annotations. MMScan has a wide range of application scenarios, mainly used for training and evaluating 3D visual grounding models and large language models, aiming to address the limitations of existing models in complex 3D scene understanding.

提供机构：

上海人工智能实验室

创建时间：

2024-06-14

搜集汇总

数据集介绍

构建方式

在三维多模态感知领域，构建具备层次化语言标注的数据集是推动场景理解的关键。MMScan采用自上而下的逻辑框架，基于现有真实扫描的三维场景数据，通过视觉语言模型（VLMs）与人工校正相结合的流程，系统化地生成元标注。首先，利用精心设计的提示词引导VLMs对物体和区域进行初步描述，涵盖空间属性、外观材质及功能等多维度信息；随后，通过人工界面进行精细化修正，确保标注的自然性、准确性与全面性。该流程最终在5.2千个场景中标注了109千个物体与7.7千个区域，形成包含140万条元标注的丰富语料库，为后续任务样本的生成奠定坚实基础。

特点

MMScan作为当前规模最大的多模态三维场景数据集，其核心特点体现在层次化语言标注的全面性与细粒度。数据集不仅覆盖物体级别的属性与空间描述，更创新性地引入区域级别的标注，从而捕捉从微观物体到宏观场景的完整语义层次。标注内容深度融合了空间关系、功能属性及设计特征等多维度信息，并通过6.9百万条语言标注与1.14亿词汇量，展现出前所未有的语言多样性与场景覆盖广度。此外，数据集中包含的视觉定位与问答任务样本分别达128万与176万条，为三维大语言模型的训练与评估提供了多维度的能力测试基准。

使用方法

MMScan为三维多模态研究提供了灵活且高效的应用途径。在模型训练方面，其元标注可直接用于生成带有实体标识的层次化场景描述，支持三维视觉定位模型与语言模型的指令微调，显著提升模型在复杂空间与属性理解任务上的性能。在评估基准构建上，数据集通过后处理流程衍生出视觉定位与问答两大任务样本，涵盖单目标与多目标关系、空间与属性理解等多个子类，为模型能力的全面评测提供结构化框架。研究者可通过开源平台获取数据与代码，便捷地集成至现有三维感知流程中，推动三维场景理解向更自然、更智能的方向演进。

背景与挑战

背景概述

MMScan数据集由上海人工智能实验室联合清华大学、上海交通大学、浙江大学、香港中文大学及香港大学等机构的研究团队于2024年构建，旨在应对多模态三维场景理解中层次化语言标注的缺失问题。该数据集基于现有三维扫描数据，采用自上而下的逻辑，从区域到对象层面，覆盖空间与属性理解的全面维度，包含690万层次化语言标注，涉及109k个对象和7.7k个区域。MMScan的创建推动了三维大语言模型的发展，为具身智能提供了更丰富的训练与评估资源，显著提升了三维视觉定位与问答任务的性能。

当前挑战

MMScan致力于解决三维场景中层次化语言理解的核心挑战，包括对象级与区域级的空间关系推理、属性描述以及跨粒度实体关联。在构建过程中，研究团队面临两大挑战：一是如何高效生成准确且全面的语言标注，通过结合视觉语言模型初始化与人工校正，优化视图选择与提示设计以确保标注质量；二是如何扩展场景多样性并减少人工干预，当前方法仍依赖大量人工修正，未来需探索自动化标注与更广泛场景覆盖的技术路径。

常用场景

经典使用场景

在三维视觉与语言融合的研究领域，MMScan数据集以其层次化语言标注成为多模态三维场景理解的基石。该数据集通过自上而下的逻辑，从区域到对象层面，覆盖空间布局与属性描述的全面维度，为三维视觉定位与问答任务提供了丰富的标注资源。其经典应用场景在于训练和评估三维大型语言模型，使其能够解析复杂室内环境中的实体关系与语义信息，推动具身智能在真实世界中的感知与交互能力。

实际应用

在实际应用层面，MMScan数据集为机器人导航、智能家居系统及增强现实等领域的场景理解提供了关键支持。通过融合三维扫描数据与层次化语言描述，系统能够准确识别环境中的功能区域与物体属性，实现基于自然语言的交互式查询与控制。例如，在家庭服务机器人场景中，模型可依据“在厨房区域找到靠近水槽的白色杯子”等指令，完成精准的物体定位与任务执行，显著提升了人机协作的智能化水平。

衍生相关工作

MMScan的发布催生了一系列相关经典工作，尤其是在三维视觉与语言模型的融合方向上。基于其层次化标注，研究者在三维视觉定位任务中提出了如ViL3DRef等模型，增强了空间关系推理能力；在三维问答领域，LL3DA与LEO等模型通过指令微调显著提升了场景理解性能。此外，该数据集还支撑了Grounded 3D-LLM等框架的发展，实现了短语级实体与三维特征的对应学习，推动了多模态三维感知向更细粒度、更通用化的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集