SpatialLadder-26k

Name: SpatialLadder-26k
Creator: 浙江大学
Published: 2025-10-10 01:50:54
License: 暂无描述

arXiv2025-10-10 更新2025-10-11 收录

下载链接：

https://github.com/ZJU-REAL/SpatialLadder

下载链接

链接失效反馈

官方服务：

资源简介：

SpatialLadder-26k是一个包含26,610个样本的多模态数据集，涵盖了从物体定位到单图像、多视图和视频空间推理任务。该数据集通过标准化流程构建，确保了跨模态的系统性覆盖，并提供了高质量的数据标注。数据集的建设旨在解决视觉语言模型在空间推理方面的挑战，通过逐步建立空间感知、空间理解和复杂推理能力，以提升模型在空间任务上的表现。

SpatialLadder-26k is a multimodal dataset containing 26,610 samples, covering tasks ranging from object localization to single-image, multi-view, and video spatial reasoning. Constructed through a standardized workflow, this dataset ensures systematic cross-modal coverage and provides high-quality data annotations. The dataset is developed to address the spatial reasoning challenges faced by vision-language models (VLMs), gradually cultivating spatial awareness, spatial comprehension, and complex reasoning abilities to improve model performance on spatial tasks.

提供机构：

浙江大学

创建时间：

2025-10-10

原始信息汇总

SpatialLadder数据集概述

数据集基本信息

数据集名称: SpatialLadder-26k
数据规模: 26,610个样本
数据来源: 基于ScanNet构建
数据获取: https://huggingface.co/datasets/hongxingli/SpatialLadder-26k

数据集构成

数据集包含四个互补的任务类别，形成完整的空间学习课程：

物体定位
单图像空间推理
多视角空间推理
视频空间推理

数据集用途

用于训练视觉语言模型的空间推理能力
支持渐进式三阶段训练框架
涵盖从基础感知到复杂推理的完整空间学习过程

性能表现

基于该数据集训练的SpatialLadder-3B模型在空间推理基准测试中表现优异：

在领域内评估基准上达到最先进性能
在领域外数据集上展现出显著改进
验证了训练语料库的有效性和泛化能力

搜集汇总

数据集介绍

构建方式

在视觉语言模型空间推理研究领域，SpatialLadder-26k数据集通过系统化构建流程实现了多模态覆盖。该数据集基于ScanNet的三维场景重建数据，采用标准化三阶段构建流程：首先收集原始三维场景数据，随后进行三维到二维的坐标转换与数据集统一，最终利用VSIBench的模板生成多样化问答对。整个构建过程严格遵循质量保障机制，通过可见性阈值控制和场景多样性筛选，确保26,610个样本在物体定位、单图像推理、多视角分析和视频空间推理四个任务类别中保持高质量标注。

特点

该数据集在空间推理任务设计上展现出层次化特征，覆盖从基础感知到复杂推理的完整能力谱系。其核心优势在于系统整合了七类空间维度任务——相对方向、相对距离、绝对距离、物体尺寸、计数、房间尺寸和外观顺序，并通过单图像、多视角和视频三种模态实现能力递进。多视角任务要求模型融合八个不同视角的空间信息，视频任务则引入时序动态分析，这种多模态协同设计使得数据集能够全面评估模型的空间认知能力。严格的场景级数据分离机制进一步保障了评估的公正性。

使用方法

该数据集配套的三阶段渐进训练框架提供了明确的使用范式。第一阶段专注于空间感知基础，通过物体定位任务建立视觉与空间的关联；第二阶段拓展至空间理解，在七类空间维度任务上进行监督微调；第三阶段采用带可验证奖励的强化学习强化复杂推理能力。实践表明，按照此渐进流程训练的模型在VSI-Bench等基准测试中表现优异，验证了从感知到理解再到推理的层次化训练策略的有效性。使用者可根据具体需求灵活选择训练阶段，亦可结合链式思维生成机制进一步提升推理质量。

背景与挑战

背景概述

视觉语言模型在基础视觉任务取得显著进展的同时，空间推理能力仍是其发展瓶颈。2025年由浙江大学研究团队提出的SpatialLadder-26k数据集，通过26,610个涵盖物体定位、单图像推理、多视角分析与视频时序理解的样本，构建了从感知基础到复杂推理的完整学习路径。该数据集基于ScanNet的3D场景重建技术，采用标准化标注流程，系统覆盖七类空间维度任务，为建立层次化空间智能提供了关键数据支撑。其渐进式训练框架将模型在VSI-Bench等基准上的性能提升23.4%，显著推动了具身智能与自动驾驶等领域的发展。

当前挑战

该数据集致力于解决视觉语言模型在空间关系理解中的核心难题，包括多视角空间整合、三维几何推理与动态场景认知等复杂任务。构建过程中面临多重挑战：需在保持标注一致性的前提下实现跨模态数据对齐，通过3D-2D投影变换确保空间标注的度量准确性；需设计层次化任务结构以平衡基础感知与高级推理的样本分布，同时通过可见度阈值与对象去歧义机制保障数据质量。这些技术难点通过标准化流水线与质量过滤策略得到系统性解决，为构建可靠的空间推理评估体系奠定基础。

常用场景

经典使用场景

在视觉语言模型研究领域，SpatialLadder-26k数据集被广泛应用于构建空间推理能力的渐进式训练框架。该数据集通过系统覆盖物体定位、单图像空间推理、多视角空间推理和视频空间推理四大任务类别，为模型提供了从基础感知到复杂推理的完整学习路径。研究者通常采用其三阶段训练范式，依次建立空间感知基础、发展空间理解能力，最终通过强化学习优化复杂推理性能，这种层次化训练方式已成为空间智能研究的标准实践。

解决学术问题

该数据集有效解决了视觉语言模型在空间推理任务中的感知-推理鸿沟问题。传统方法往往将空间推理视为单一能力直接学习，忽视了从感知到理解的层次化构建过程。SpatialLadder-26k通过系统化的任务设计和标准化的标注流程，为模型提供了建立空间感知基础的必要训练信号，显著提升了在相对方向判断、距离估计、物体尺寸测量等七维空间任务上的性能，在VSI-Bench等基准测试中实现了23.4%的平均性能提升。

衍生相关工作

该数据集的发布催生了一系列空间推理领域的创新研究。SpaceR-7B模型借鉴其强化学习框架，通过地图想象机制增强了视频空间推理能力；VILASR-7B在此基础上发展出“绘图推理”范式，通过标注边界框和绘制辅助线提升空间理解；Spatial-MLLM-4B则引入双编码器架构，结合2D语义特征和3D结构特征，在视觉空间理解任务中取得了突破性进展。这些工作共同推动了多模态空间推理研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集