SpatialLadder-26k
收藏arXiv2025-10-10 更新2025-10-11 收录
下载链接:
https://github.com/ZJU-REAL/SpatialLadder
下载链接
链接失效反馈官方服务:
资源简介:
SpatialLadder-26k是一个包含26,610个样本的多模态数据集,涵盖了从物体定位到单图像、多视图和视频空间推理任务。该数据集通过标准化流程构建,确保了跨模态的系统性覆盖,并提供了高质量的数据标注。数据集的建设旨在解决视觉语言模型在空间推理方面的挑战,通过逐步建立空间感知、空间理解和复杂推理能力,以提升模型在空间任务上的表现。
SpatialLadder-26k is a multimodal dataset containing 26,610 samples, covering tasks ranging from object localization to single-image, multi-view, and video spatial reasoning. Constructed through a standardized workflow, this dataset ensures systematic cross-modal coverage and provides high-quality data annotations. The dataset is developed to address the spatial reasoning challenges faced by vision-language models (VLMs), gradually cultivating spatial awareness, spatial comprehension, and complex reasoning abilities to improve model performance on spatial tasks.
提供机构:
浙江大学
创建时间:
2025-10-10
原始信息汇总
SpatialLadder数据集概述
数据集基本信息
- 数据集名称: SpatialLadder-26k
- 数据规模: 26,610个样本
- 数据来源: 基于ScanNet构建
- 数据获取: https://huggingface.co/datasets/hongxingli/SpatialLadder-26k
数据集构成
数据集包含四个互补的任务类别,形成完整的空间学习课程:
- 物体定位
- 单图像空间推理
- 多视角空间推理
- 视频空间推理
数据集用途
- 用于训练视觉语言模型的空间推理能力
- 支持渐进式三阶段训练框架
- 涵盖从基础感知到复杂推理的完整空间学习过程
相关资源
- 预训练模型: SpatialLadder-3B (https://huggingface.co/hongxingli/SpatialLadder-3B)
- 评估基准: SPBench (https://huggingface.co/datasets/hongxingli/SPBench)
- 论文地址: https://arxiv.org/abs/2510.08531
性能表现
基于该数据集训练的SpatialLadder-3B模型在空间推理基准测试中表现优异:
- 在领域内评估基准上达到最先进性能
- 在领域外数据集上展现出显著改进
- 验证了训练语料库的有效性和泛化能力
搜集汇总
数据集介绍

构建方式
在视觉语言模型空间推理研究领域,SpatialLadder-26k数据集通过系统化构建流程实现了多模态覆盖。该数据集基于ScanNet的三维场景重建数据,采用标准化三阶段构建流程:首先收集原始三维场景数据,随后进行三维到二维的坐标转换与数据集统一,最终利用VSIBench的模板生成多样化问答对。整个构建过程严格遵循质量保障机制,通过可见性阈值控制和场景多样性筛选,确保26,610个样本在物体定位、单图像推理、多视角分析和视频空间推理四个任务类别中保持高质量标注。
特点
该数据集在空间推理任务设计上展现出层次化特征,覆盖从基础感知到复杂推理的完整能力谱系。其核心优势在于系统整合了七类空间维度任务——相对方向、相对距离、绝对距离、物体尺寸、计数、房间尺寸和外观顺序,并通过单图像、多视角和视频三种模态实现能力递进。多视角任务要求模型融合八个不同视角的空间信息,视频任务则引入时序动态分析,这种多模态协同设计使得数据集能够全面评估模型的空间认知能力。严格的场景级数据分离机制进一步保障了评估的公正性。
使用方法
该数据集配套的三阶段渐进训练框架提供了明确的使用范式。第一阶段专注于空间感知基础,通过物体定位任务建立视觉与空间的关联;第二阶段拓展至空间理解,在七类空间维度任务上进行监督微调;第三阶段采用带可验证奖励的强化学习强化复杂推理能力。实践表明,按照此渐进流程训练的模型在VSI-Bench等基准测试中表现优异,验证了从感知到理解再到推理的层次化训练策略的有效性。使用者可根据具体需求灵活选择训练阶段,亦可结合链式思维生成机制进一步提升推理质量。
背景与挑战
背景概述
视觉语言模型在基础视觉任务取得显著进展的同时,空间推理能力仍是其发展瓶颈。2025年由浙江大学研究团队提出的SpatialLadder-26k数据集,通过26,610个涵盖物体定位、单图像推理、多视角分析与视频时序理解的样本,构建了从感知基础到复杂推理的完整学习路径。该数据集基于ScanNet的3D场景重建技术,采用标准化标注流程,系统覆盖七类空间维度任务,为建立层次化空间智能提供了关键数据支撑。其渐进式训练框架将模型在VSI-Bench等基准上的性能提升23.4%,显著推动了具身智能与自动驾驶等领域的发展。
当前挑战
该数据集致力于解决视觉语言模型在空间关系理解中的核心难题,包括多视角空间整合、三维几何推理与动态场景认知等复杂任务。构建过程中面临多重挑战:需在保持标注一致性的前提下实现跨模态数据对齐,通过3D-2D投影变换确保空间标注的度量准确性;需设计层次化任务结构以平衡基础感知与高级推理的样本分布,同时通过可见度阈值与对象去歧义机制保障数据质量。这些技术难点通过标准化流水线与质量过滤策略得到系统性解决,为构建可靠的空间推理评估体系奠定基础。
常用场景
经典使用场景
在视觉语言模型研究领域,SpatialLadder-26k数据集被广泛应用于构建空间推理能力的渐进式训练框架。该数据集通过系统覆盖物体定位、单图像空间推理、多视角空间推理和视频空间推理四大任务类别,为模型提供了从基础感知到复杂推理的完整学习路径。研究者通常采用其三阶段训练范式,依次建立空间感知基础、发展空间理解能力,最终通过强化学习优化复杂推理性能,这种层次化训练方式已成为空间智能研究的标准实践。
解决学术问题
该数据集有效解决了视觉语言模型在空间推理任务中的感知-推理鸿沟问题。传统方法往往将空间推理视为单一能力直接学习,忽视了从感知到理解的层次化构建过程。SpatialLadder-26k通过系统化的任务设计和标准化的标注流程,为模型提供了建立空间感知基础的必要训练信号,显著提升了在相对方向判断、距离估计、物体尺寸测量等七维空间任务上的性能,在VSI-Bench等基准测试中实现了23.4%的平均性能提升。
衍生相关工作
该数据集的发布催生了一系列空间推理领域的创新研究。SpaceR-7B模型借鉴其强化学习框架,通过地图想象机制增强了视频空间推理能力;VILASR-7B在此基础上发展出“绘图推理”范式,通过标注边界框和绘制辅助线提升空间理解;Spatial-MLLM-4B则引入双编码器架构,结合2D语义特征和3D结构特征,在视觉空间理解任务中取得了突破性进展。这些工作共同推动了多模态空间推理研究的发展。
以上内容由遇见数据集搜集并总结生成



