MSMU
收藏arXiv2025-09-22 更新2025-11-21 收录
下载链接:
https://hf-mirror.com/datasets/cpystan/MSMU
下载链接
链接失效反馈官方服务:
资源简介:
MSMU数据集是一个大规模定量空间推理数据集,包含约25K图像和700K问答对(包括10K思维链样本),来自2K真实3D场景,带有2.5M数值注释。该数据集旨在提升视觉语言模型的空间感知能力,特别是在定量空间推理方面。数据集的创建过程包括场景图构建、3D到2D映射、问答生成等步骤。MSMU数据集的应用领域包括机器人、自动驾驶汽车、增强现实等,旨在解决现有视觉语言模型在理解3D空间概念方面的不足。
The MSMU dataset is a large-scale quantitative spatial reasoning dataset, containing approximately 25K images and 700K question-answer pairs (including 10K chain-of-thought samples) sourced from 2K real 3D scenes, with 2.5M numerical annotations. This dataset aims to enhance the spatial perception capabilities of vision-language models, especially in the domain of quantitative spatial reasoning. The dataset construction process includes steps such as scene graph construction, 3D-to-2D mapping, and question-answer generation. The application areas of the MSMU dataset cover robotics, autonomous driving, augmented reality and other fields, and it is designed to address the shortcomings of existing vision-language models in understanding 3D spatial concepts.
提供机构:
阿里巴巴云计算
创建时间:
2025-09-22
搜集汇总
数据集介绍

构建方式
在三维视觉理解领域,MSMU数据集的构建采用了系统化的多阶段流程。基于ScanNet和ScanNet++等真实三维场景数据,研究团队首先通过三维点云构建场景图,精确记录物体的空间位置与物理尺寸。随后利用栅格化技术将三维实例映射至二维图像平面,并经过严格的图像筛选与对象选择流程,确保标注质量。最终通过模板化问答生成机制与大型语言模型协作,构建了包含链式思维增强样本的大规模空间问答对。
特点
作为面向定量空间推理的专项数据集,MSMU展现出三大核心特征。其数据规模显著领先,涵盖2千个三维场景、2.5万幅图像及70万组问答对,并包含250万个精确物理标注。任务维度全面覆盖尺度估计、绝对距离测量、参照物推理等八类空间任务,特别设计了存在性检测任务以抑制模型幻觉。标注精度方面,所有空间参数均源自真实三维场景的物理测量,突破了传统模型驱动标注的误差局限。
使用方法
该数据集主要服务于视觉语言模型的空间推理能力训练与评估。研究者可通过端到端微调将MSMU数据融入模型训练流程,特别适合与深度位置编码等空间感知模块协同优化。评估阶段可采用其子集MSMU-Bench进行标准化测试,该基准通过GPT-4自动化评估体系,对定量问题采用相对误差阈值判定,对定性问题采用语义匹配度评分。数据集还可用于链式思维推理的诱导训练,通过参照物关联机制提升模型的可解释性推理能力。
背景与挑战
背景概述
MSMU数据集由阿里巴巴云与多所高校联合团队于2025年提出,旨在解决视觉语言模型在三维空间定量推理方面的核心瓶颈。该数据集基于真实三维场景构建,涵盖2千个场景、2.5万张图像及70万组问答对,通过精确的物理尺度标注填补了传统二维视觉数据在空间度量理解上的空白。其创新性在于将三维空间结构映射至二维图像,并引入链式思维增强样本,为机器人、自动驾驶等需要精确空间感知的领域提供了关键数据支撑。
当前挑战
MSMU数据集主要应对两大挑战:在领域问题层面,传统视觉语言模型难以从二维图像中推导三维空间的绝对距离、物体尺寸等定量关系,而该数据集通过大规模精确标注突破了空间度量理解的局限性;在构建过程中,需解决三维场景到二维图像的空间映射精度问题,同时克服真实场景中物体遮挡、语义歧义等数据质量难题,并通过大语言模型协作生成逻辑严密的链式思维标注,确保数据集的科学性与可靠性。
常用场景
经典使用场景
在视觉语言模型领域,MSMU数据集作为大规模空间测量与理解基准,主要应用于增强模型的三维定量空间推理能力。通过提供包含精确物理标注的二维图像与深度图配对数据,该数据集支撑了模型在绝对距离测量、物体尺寸估算等复杂任务中的训练与评估,显著提升了视觉语言模型从二维感知到三维认知的转化效率。
解决学术问题
MSMU数据集有效解决了视觉语言模型在三维空间定量推理中的核心瓶颈,即缺乏高精度空间标注数据导致的模型空间意识薄弱问题。通过引入来自真实三维场景的700K问答对与250万数值标注,该数据集为模型提供了学习物理尺度映射的充分监督,推动了空间认知从定性描述向定量计算的跨越,填补了现有数据在复杂空间任务覆盖上的空白。
衍生相关工作
MSMU数据集催生了多项创新性研究,其中最具代表性的是SD-VLM框架的提出,该框架通过深度位置编码机制将深度信息隐式融入视觉特征,实现了无需显式三维数据的空间能力增强。此外,基于该数据集构建的MSMU-Bench评估基准已成为衡量模型空间推理能力的新标准,并启发了如Q-Spatial、SpatialRGPT等工作的改进方向,推动了整个领域对空间认知机制的深入探索。
以上内容由遇见数据集搜集并总结生成



