SpatialTreeBench

github2026-01-18 更新2026-01-24 收录

下载链接：

https://github.com/ByteDance-Seed/SpatialTree

下载链接

链接失效反馈

官方服务：

资源简介：

SpatialTree是一个受认知科学启发的层次结构和基准，用于评估大型多模态模型（MLLMs）的空间能力。它将空间能力分为四个级别——感知（L1）、心理映射（L2）、模拟（L3）和代理能力（L4）——涵盖27个子能力。

SpatialTree is a cognitive science-inspired hierarchical structure and benchmark for evaluating the spatial abilities of large multimodal models (MLLMs). It categorizes spatial abilities into four levels: Perception (L1), Mental Mapping (L2), Simulation (L3), and Agency (L4), covering 27 sub-capabilities.

创建时间：

2026-01-04

原始信息汇总

SpatialTree数据集概述

数据集基本信息

数据集名称: SpatialTree (SpatialTree-Bench)
核心定位: 一个受认知科学启发的、用于评估大型多模态模型空间能力的层次化基准。
核心结构: 将空间能力组织为四个层级，涵盖27种子能力。

能力层次结构

该基准将空间能力划分为四个递进层级：

L1 感知: 基础空间感知能力。
L2 心理映射: 涉及空间心理表征与理解。
L3 模拟: 涵盖因果推理与序列规划。
L4 智能体能力: 面向目标驱动执行与开放世界探索的高级交互能力。

关键研究发现

层次结构重要性: 高层级技能（L2-L4）之间存在强相关性，而L1技能基本独立。
迁移动态: 存在从低层级到高层级能力的强跨层级正向迁移，而L1层级内的迁移可能为负向。
自动思考策略: 提出了“自动思考”策略，以抑制不必要的深思熟虑，使强化学习能够持续提升所有层级的性能。

评估与使用

评估框架: 提供与lmms-eval集成的评估脚本。
评估任务: 任务注册名为spatialtreebench。
数据集来源: 数据集托管于Hugging Face: https://huggingface.co/datasets/LongfeiLi/SpatialTree-Bench
输出结果: 评估完成后，结果将保存至指定路径，包含聚合分数的results.json以及详细模型输入和预测的samples.json。

引用信息

如需引用本工作，请使用以下BibTeX条目： bibtex @article{xiao2025spatialtree, title={SpatialTree: How Spatial Abilities Branch Out in MLLMs}, author={Xiao, Yuxi and Li, Longfei and Yan, Shen and Liu, Xinhang and Peng, Sida and Wei, Yunchao and Zhou, Xiaowei and Kang, Bingyi}, journal={arXiv preprint arXiv:2512.20617}, year={2025} }

搜集汇总

数据集介绍

构建方式

在空间认知科学领域，SpatialTreeBench的构建遵循了严谨的认知层级理论。该数据集以人类空间能力的发展脉络为蓝本，系统性地将评估任务划分为感知、心理映射、模拟与智能体交互四个渐进层次，并进一步细化为27项具体子能力。其构建过程深度融合了认知心理学原理与多模态机器学习需求，通过精心设计的视觉场景与问题对，旨在精确量化大型多模态模型在不同复杂度空间任务上的表现。

特点

SpatialTreeBench的核心特征在于其开创性的层次化评估体系。与以往侧重于单一维度的基准不同，该数据集揭示了空间能力从基础感知到高级决策的连续谱系，并发现了不同层级能力间独特的关联与迁移规律。数据集内嵌的自动思考策略，能够有效抑制模型在直觉性任务上的过度推理，这一设计显著提升了评估的准确性与鲁棒性，为深入理解模型的空间认知机制提供了结构化视角。

使用方法

该数据集的使用依托于集成的lmms-eval评估框架。研究人员可通过配置OpenAI兼容的API接口，便捷地对各类大型多模态模型进行标准化测试。评估脚本会自动从Hugging Face平台加载数据集，执行后不仅输出各层次与子能力的详细得分，还提供模型预测的完整样本记录。这种一体化的评估流程，使得跨模型的能力对比与诊断分析变得高效而系统。

背景与挑战

背景概述

随着多模态大模型在视觉与语言理解任务上的飞速发展，评估其深层次认知能力成为人工智能领域的前沿课题。SpatialTreeBench数据集由研究团队于2025年提出，其核心研究问题聚焦于系统评估大模型的空间认知能力。该数据集受认知科学启发，构建了一个涵盖感知、心理映射、模拟与具身交互的四层能力层次体系，旨在揭示模型从基础空间感知到复杂空间推理与行动能力的内在机制。这一基准的建立，为深入理解多模态模型的空间智能本质、推动其向更类人的认知水平演进提供了重要的实证基础与评估工具。

当前挑战

SpatialTreeBench所针对的核心领域挑战在于，如何超越传统的图像分类或描述任务，系统性地定义并衡量多模态大模型复杂且多层次的空间智能。这要求基准不仅涵盖几何感知、定位等基础能力，还需延伸至心理模拟、因果推理乃至具身交互等高级认知层面。在数据集构建过程中，挑战同样显著：如何依据认知科学理论设计出具有区分度且无偏见的测试任务，如何确保从感知到行动各层次数据在复杂性与真实性上的平衡，以及如何建立可靠的自动化评估流程以应对大规模、多轮次的模型测试需求。

常用场景

经典使用场景

在空间认知科学与人机交互的交叉领域，SpatialTreeBench数据集为评估大型多模态模型的空间能力提供了结构化框架。其经典使用场景在于系统性地测试模型从基础感知到高级代理交互的层次化性能，研究者通过该基准能够深入剖析模型在几何理解、心理映射、动态模拟及自主探索等任务中的表现，从而揭示多模态智能体在复杂空间环境中的认知边界与演进路径。

实际应用

在实际应用层面，SpatialTreeBench能够指导具身智能、自动驾驶及增强现实等系统的开发。通过评估模型在三维检测、路径规划、动态因果推理及开放世界探索等任务中的表现，工程师可以针对性优化智能体在真实环境中的空间交互能力，例如提升家庭服务机器人的物体操作精度或增强自动驾驶车辆在复杂路况下的情境理解，从而加速可靠空间智能系统向现实场景的落地部署。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在空间能力迁移机制与推理策略优化方面。例如，研究者基于其揭示的跨层级转移规律，提出了抑制不必要深思的“自动思考”策略，以平衡直觉感知与复杂推理之间的矛盾；同时，该基准也催生了针对心理地图构建、动态关系理解等子任务的新型评估方法，进一步推动了多模态模型在认知模拟与代理行为生成等前沿方向上的算法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集