Spatial-MLLM-120k
收藏arXiv2025-05-30 更新2025-05-31 收录
下载链接:
https://diankun-wu.github.io/Spatial-MLLM/
下载链接
链接失效反馈官方服务:
资源简介:
Spatial-MLLM-120k数据集是由清华大学的研究团队创建的,旨在提升现有视频多模态大语言模型的空间智能。该数据集包含120,000个条目,用于训练模型进行视觉基础的空间推理。数据集的构建过程涉及了从纯2D观察中提取视觉基础的空间推理能力,使用了双编码器架构和空间感知帧采样策略。数据集的应用领域包括各种基于视觉的空间理解和推理任务,如视觉-空间智能基准(VSIBench)、ScanQA和SQA3D等,旨在解决现有视频多模态大语言模型在空间智能方面的挑战。
The Spatial-MLLM-120k dataset was created by a research team from Tsinghua University, aiming to enhance the spatial intelligence of existing video multimodal large language models. This dataset comprises 120,000 entries designed to train models for visual-grounded spatial reasoning. The construction of the dataset involves extracting visual-grounded spatial reasoning capabilities from purely 2D visual observations, leveraging a dual-encoder architecture and a spatial-aware frame sampling strategy. Its application scenarios cover various vision-based spatial understanding and reasoning tasks, including Visual-Spatial Intelligence Benchmark (VSIBench), ScanQA, SQA3D, and other related benchmarks, with the purpose of addressing the spatial intelligence challenges faced by current video multimodal large language models.
提供机构:
清华大学
创建时间:
2025-05-30
原始信息汇总
Spatial-MLLM 数据集概述
基本信息
- 标题: Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
- 作者: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
- 机构: 清华大学
- 论文链接: arXiv
- 代码链接: 未提供具体地址
- 视频链接: 未提供具体地址
研究背景
- 多模态大语言模型(MLLMs)在2D视觉任务上表现优异,但在空间智能方面仍有提升空间。
- 现有3D MLLMs依赖额外的3D或2.5D数据,限制了其在仅有2D输入(如图像或视频)场景中的应用。
方法概述
- 框架名称: Spatial-MLLM
- 核心创新:
- 提出一种从纯2D观察中进行视觉空间推理的新框架。
- 采用双编码器架构:预训练的2D视觉编码器提取语义特征,空间编码器(基于视觉几何模型)提取3D结构特征。
- 引入连接器将两种特征整合为统一的视觉标记。
- 提出空间感知帧采样策略,在推理时选择空间信息丰富的帧。
数据集
- 训练数据集: Spatial-MLLM-120k(由研究团队构建)
性能评估
- VSI-Bench:
- 使用16帧作为输入。
- 在开源模型中表现最佳或次佳。
- ScanQA & SQA3D:
- 在ScanQA验证集和SQA3D测试集上评估。
- 在各模型类别中表现最佳或次佳。
引用格式
bibtex @article{wu2025spatialmllmboostingmllmcapabilities, title={Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence}, author={Wu, Diankun and Liu, Fangfu and Hung, Yi-Hsin and Duan, Yueqi}, journal={arXiv preprint arXiv:2505.23747}, year={2025} }
搜集汇总
数据集介绍

构建方式
Spatial-MLLM-120k数据集的构建过程融合了多源数据与创新方法,主要基于ScanNet训练集的场景视频进行系统化处理。研究团队首先将原始扫描数据转换为24FPS、640×480分辨率的连续视频片段,并通过空间元数据计算提取场景的几何与语义信息。针对七类空间推理任务(如物体计数、相对方向、绝对距离等),采用半自动化流程生成12万条问答对,其中57.47%为自主创建数据。为确保数据质量,构建过程中严格排除评估集涉及的312个场景视频,并采用NYU40分类体系统一物体语义标注。
特点
该数据集的核心价值在于其多维度空间表征能力,每个样本包含视频ID、问题、答案及任务类型元数据的四元组结构。特别值得注意的是其覆盖的七类空间推理任务,其中相对方向(31.64%)和相对/绝对距离(30.95%)占比最高,形成了对MLLM空间认知能力的系统化测评体系。数据分布呈现长尾特性,如物体计数仅占5.5%,这种不平衡性真实反映了室内场景的物体分布规律。所有问答对均基于精确的3D场景标注生成,确保空间关系的几何准确性。
使用方法
使用该数据集需遵循两阶段训练范式:首先通过监督微调(SFT)冻结视觉编码器,仅训练连接模块与LLM主干,采用交叉熵损失优化答案生成;继而采用分组相对策略优化(GRPO)进行强化学习,特别设计了三类任务相关奖励函数——数值问题采用平均相对准确度,多选题使用精确匹配,开放式问题则基于Levenshtein距离计算相似度。推理阶段需配合空间感知帧采样策略,从128候选帧中贪婪选择16个空间信息最丰富的帧,通过体素覆盖最大化算法确保3D场景理解的完备性。数据集与VSIBench等基准的兼容性支持跨模型性能对比。
背景与挑战
背景概述
Spatial-MLLM-120k数据集由清华大学的研究团队于2025年提出,旨在增强多模态大语言模型(MLLMs)在纯2D视觉输入下的空间理解和推理能力。该数据集基于ScanNet训练集构建,包含约12万条视觉空间问答数据,涵盖对象计数、绝对距离、相对方向等七类空间推理任务。其核心创新在于通过双编码器架构融合语义与结构特征,并引入空间感知帧采样策略,显著提升了模型在VSI-Bench等基准测试中的表现,推动了视觉空间智能领域的发展。
当前挑战
该数据集主要面临两大挑战:领域问题层面,现有视频MLLMs的CLIP范式视觉编码器缺乏空间结构感知能力,难以从单目视频推断3D场景布局;构建过程层面,需解决空间视频帧采样冗余问题,传统均匀采样会遗漏短暂出现的空间区域。研究团队通过视觉几何基础模型提取3D结构特征,并将帧选择建模为体素最大覆盖问题,但如何平衡计算效率与空间信息完整性仍是持续优化方向。
常用场景
经典使用场景
Spatial-MLLM-120k数据集在视觉空间智能领域具有广泛的应用价值,尤其在多模态大语言模型(MLLMs)的空间推理能力提升方面表现突出。该数据集通过提供丰富的视觉空间问答对,支持模型从2D视频输入中理解和推理3D场景的空间关系。经典使用场景包括机器人导航、虚拟现实环境中的空间感知以及增强现实应用中的场景理解。数据集中的任务涵盖了物体计数、绝对距离测量、相对方向判断等多种空间推理任务,为模型提供了全面的训练和评估基础。
衍生相关工作
Spatial-MLLM-120k数据集衍生了一系列经典工作,推动了视觉空间智能领域的发展。基于该数据集的研究提出了双编码器架构,结合了语义和结构信息,显著提升了模型的性能。此外,空间感知帧采样策略的引入进一步优化了模型在有限输入下的表现。相关研究还包括对ScanQA和SQA3D等基准的扩展应用,以及在新兴领域如自动驾驶和智能监控中的探索。这些工作不仅验证了数据集的有效性,也为后续研究提供了宝贵的参考。
数据集最近研究
最新研究方向
近年来,Spatial-MLLM-120k数据集在视觉空间智能领域引起了广泛关注。该数据集通过结合2D视觉输入与3D空间推理能力,显著提升了多模态大语言模型(MLLMs)在空间理解任务中的表现。研究热点主要集中在如何从纯2D视频输入中提取3D结构信息,以及如何优化帧采样策略以增强空间推理能力。前沿研究方向包括双编码器架构的设计、空间感知帧采样算法的优化,以及基于强化学习的推理能力提升。这些研究不仅推动了视觉空间智能的发展,还在机器人导航、增强现实等领域展现出广阔的应用前景。
相关研究论文
- 1Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成



