Spatial-MLLM-120k

Name: Spatial-MLLM-120k
Creator: 清华大学
Published: 2025-05-30 01:59:04
License: 暂无描述

arXiv2025-05-30 更新2025-05-31 收录

下载链接：

https://diankun-wu.github.io/Spatial-MLLM/

下载链接

链接失效反馈

官方服务：

资源简介：

Spatial-MLLM-120k数据集是由清华大学的研究团队创建的，旨在提升现有视频多模态大语言模型的空间智能。该数据集包含120,000个条目，用于训练模型进行视觉基础的空间推理。数据集的构建过程涉及了从纯2D观察中提取视觉基础的空间推理能力，使用了双编码器架构和空间感知帧采样策略。数据集的应用领域包括各种基于视觉的空间理解和推理任务，如视觉-空间智能基准（VSIBench）、ScanQA和SQA3D等，旨在解决现有视频多模态大语言模型在空间智能方面的挑战。

The Spatial-MLLM-120k dataset was created by a research team from Tsinghua University, aiming to enhance the spatial intelligence of existing video multimodal large language models. This dataset comprises 120,000 entries designed to train models for visual-grounded spatial reasoning. The construction of the dataset involves extracting visual-grounded spatial reasoning capabilities from purely 2D visual observations, leveraging a dual-encoder architecture and a spatial-aware frame sampling strategy. Its application scenarios cover various vision-based spatial understanding and reasoning tasks, including Visual-Spatial Intelligence Benchmark (VSIBench), ScanQA, SQA3D, and other related benchmarks, with the purpose of addressing the spatial intelligence challenges faced by current video multimodal large language models.

提供机构：

清华大学

创建时间：

2025-05-30

原始信息汇总

Spatial-MLLM 数据集概述

基本信息

标题: Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
作者: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
机构: 清华大学
论文链接: arXiv
代码链接: 未提供具体地址
视频链接: 未提供具体地址

研究背景

多模态大语言模型（MLLMs）在2D视觉任务上表现优异，但在空间智能方面仍有提升空间。
现有3D MLLMs依赖额外的3D或2.5D数据，限制了其在仅有2D输入（如图像或视频）场景中的应用。

方法概述

框架名称: Spatial-MLLM
核心创新:
- 提出一种从纯2D观察中进行视觉空间推理的新框架。
- 采用双编码器架构：预训练的2D视觉编码器提取语义特征，空间编码器（基于视觉几何模型）提取3D结构特征。
- 引入连接器将两种特征整合为统一的视觉标记。
- 提出空间感知帧采样策略，在推理时选择空间信息丰富的帧。

数据集

训练数据集: Spatial-MLLM-120k（由研究团队构建）

性能评估

VSI-Bench:
- 使用16帧作为输入。
- 在开源模型中表现最佳或次佳。
ScanQA & SQA3D:
- 在ScanQA验证集和SQA3D测试集上评估。
- 在各模型类别中表现最佳或次佳。

引用格式

bibtex @article{wu2025spatialmllmboostingmllmcapabilities, title={Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence}, author={Wu, Diankun and Liu, Fangfu and Hung, Yi-Hsin and Duan, Yueqi}, journal={arXiv preprint arXiv:2505.23747}, year={2025} }

搜集汇总

数据集介绍

构建方式

Spatial-MLLM-120k数据集的构建过程融合了多源数据与创新方法，主要基于ScanNet训练集的场景视频进行系统化处理。研究团队首先将原始扫描数据转换为24FPS、640×480分辨率的连续视频片段，并通过空间元数据计算提取场景的几何与语义信息。针对七类空间推理任务（如物体计数、相对方向、绝对距离等），采用半自动化流程生成12万条问答对，其中57.47%为自主创建数据。为确保数据质量，构建过程中严格排除评估集涉及的312个场景视频，并采用NYU40分类体系统一物体语义标注。

特点

该数据集的核心价值在于其多维度空间表征能力，每个样本包含视频ID、问题、答案及任务类型元数据的四元组结构。特别值得注意的是其覆盖的七类空间推理任务，其中相对方向（31.64%）和相对/绝对距离（30.95%）占比最高，形成了对MLLM空间认知能力的系统化测评体系。数据分布呈现长尾特性，如物体计数仅占5.5%，这种不平衡性真实反映了室内场景的物体分布规律。所有问答对均基于精确的3D场景标注生成，确保空间关系的几何准确性。

使用方法

使用该数据集需遵循两阶段训练范式：首先通过监督微调（SFT）冻结视觉编码器，仅训练连接模块与LLM主干，采用交叉熵损失优化答案生成；继而采用分组相对策略优化（GRPO）进行强化学习，特别设计了三类任务相关奖励函数——数值问题采用平均相对准确度，多选题使用精确匹配，开放式问题则基于Levenshtein距离计算相似度。推理阶段需配合空间感知帧采样策略，从128候选帧中贪婪选择16个空间信息最丰富的帧，通过体素覆盖最大化算法确保3D场景理解的完备性。数据集与VSIBench等基准的兼容性支持跨模型性能对比。

背景与挑战

背景概述

Spatial-MLLM-120k数据集由清华大学的研究团队于2025年提出，旨在增强多模态大语言模型（MLLMs）在纯2D视觉输入下的空间理解和推理能力。该数据集基于ScanNet训练集构建，包含约12万条视觉空间问答数据，涵盖对象计数、绝对距离、相对方向等七类空间推理任务。其核心创新在于通过双编码器架构融合语义与结构特征，并引入空间感知帧采样策略，显著提升了模型在VSI-Bench等基准测试中的表现，推动了视觉空间智能领域的发展。

当前挑战

该数据集主要面临两大挑战：领域问题层面，现有视频MLLMs的CLIP范式视觉编码器缺乏空间结构感知能力，难以从单目视频推断3D场景布局；构建过程层面，需解决空间视频帧采样冗余问题，传统均匀采样会遗漏短暂出现的空间区域。研究团队通过视觉几何基础模型提取3D结构特征，并将帧选择建模为体素最大覆盖问题，但如何平衡计算效率与空间信息完整性仍是持续优化方向。

常用场景

经典使用场景

Spatial-MLLM-120k数据集在视觉空间智能领域具有广泛的应用价值，尤其在多模态大语言模型（MLLMs）的空间推理能力提升方面表现突出。该数据集通过提供丰富的视觉空间问答对，支持模型从2D视频输入中理解和推理3D场景的空间关系。经典使用场景包括机器人导航、虚拟现实环境中的空间感知以及增强现实应用中的场景理解。数据集中的任务涵盖了物体计数、绝对距离测量、相对方向判断等多种空间推理任务，为模型提供了全面的训练和评估基础。

衍生相关工作

Spatial-MLLM-120k数据集衍生了一系列经典工作，推动了视觉空间智能领域的发展。基于该数据集的研究提出了双编码器架构，结合了语义和结构信息，显著提升了模型的性能。此外，空间感知帧采样策略的引入进一步优化了模型在有限输入下的表现。相关研究还包括对ScanQA和SQA3D等基准的扩展应用，以及在新兴领域如自动驾驶和智能监控中的探索。这些工作不仅验证了数据集的有效性，也为后续研究提供了宝贵的参考。

数据集最近研究