SPACE benchmark

github2025-04-18 更新2025-04-20 收录

下载链接：

https://github.com/apple/ml-space-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

SPACE是一个系统性评估前沿模型中空间认知能力的基准。该基准基于认知科学数十年的研究，评估了生物在穿越物理环境时的大规模映射能力、小规模推理关于物体形状和布局的能力，以及空间注意力和记忆等认知基础设施。对于许多任务，我们通过文本和图像进行并行展示，从而能够对大型语言模型和大型多模态模型进行基准测试。结果表明，当代前沿模型在动物认知的许多经典测试中表现接近随机水平，远不及动物的空间智能。

SPACE is a benchmark for systematically evaluating the spatial cognitive abilities of state-of-the-art models. Built upon decades of cognitive science research, this benchmark assesses biological organisms' large-scale mapping capabilities during physical environment navigation, small-scale reasoning abilities concerning object shapes and layouts, as well as core cognitive infrastructures such as spatial attention and memory. For many tasks, we adopt parallel text and image presentations, enabling benchmarking of both large language models (LLMs) and large multimodal models. Experimental results show that contemporary state-of-the-art models perform nearly at random chance level across numerous classic animal cognition tests, falling far short of the spatial intelligence of animals.

创建时间：

2025-04-17

原始信息汇总

SPACE Benchmark 数据集概述

数据集基本信息

研究论文: Does Spatial Cognition Emerge in Frontier Models?
作者: Santhosh Kumar Ramakrishnan, Erik Wijmans, Philipp Krähenbühl, Vladlen Koltun
发表会议: ICLR 2025

数据集简介

SPACE是一个系统评估前沿模型空间认知能力的基准测试。该基准基于认知科学数十年的研究成果，评估以下能力：

大规模映射能力（生物体穿越物理环境时使用）
小规模推理（物体形状和布局）
认知基础设施（空间注意力和记忆）

数据集内容

多模态支持: 支持文本和图像并行呈现
评估任务:
- QA任务（21种不同任务）
- 导航任务（包括自我中心导航、离散地图图像导航和文本导航）
- CSWM任务（多模态和纯文本呈现）
- 迷宫完成任务（多模态和纯文本呈现）

数据集下载

下载地址: https://ml-site.cdn-apple.com/datasets/space/space.tar.gz
存储路径: <repository_root>/data/SPACE_data_release

支持的模型

多模态模型: claude35sonnet, gpt4o, gpt4v, phi35vision, pixtral12b
纯文本模型: claude35sonnet, gpt4o, gpt4v, llama3_8b, llama3_70b, mixtral8x7b, mixtral8x22b, mistral123b, yi15_9b, yi15_34b

许可证

代码许可: Apple Sample Code License
数据许可: CC-BY-NC-ND

引用

bibtex @inproceedings{ramakrishnan2025space, title={Does Spatial Cognition Emerge in Frontier Models?}, author={Ramakrishnan, Santhosh Kumar and Wijmans, Erik and Kraehenbuehl, Philipp and Koltun, Vladlen}, booktitle={International Conference on Learning Representations}, year={2025}, url={https://openreview.net/forum?id=WK6K1FMEQ1} }

搜集汇总

数据集介绍

构建方式

SPACE benchmark的构建基于认知科学领域数十年的研究成果，旨在系统评估前沿模型的空间认知能力。该数据集通过多模态并行呈现方式，涵盖了大尺度环境导航映射、小尺度物体形状与布局推理以及空间注意力与记忆等认知基础任务。研究者精心设计了文本和图像两种呈现形式，使得数据集能够同时评估大型语言模型和多模态模型的空间认知表现。数据采集过程严格遵循科学实验范式，确保任务设计具有认知科学理论基础。

特点

SPACE benchmark最显著的特点是全面覆盖空间认知的多个维度，从宏观导航到微观物体关系推理。数据集包含24种不同的QA任务变体，支持文本和视觉两种输入模态，为模型评估提供了丰富场景。特别值得注意的是，该基准测试引入了经典动物认知实验的数字化版本，为比较人工智能与生物智能提供了独特视角。数据集的3D场景和2D地图均经过专业设计，确保空间关系的准确表达和评估的有效性。

使用方法

使用SPACE benchmark需要先配置特定环境，包括安装habitat-sim模拟器等依赖项。评估过程分为QA任务、导航任务、CSWM任务和迷宫完成任务四大类，每类任务都提供详细的命令行接口。用户可通过指定模型名称、数据路径和保存目录等参数灵活开展评估。数据集特别支持当前主流的大型语言模型和多模态模型，包括GPT、Claude等前沿模型系列。评估结果将自动保存至指定目录，便于后续分析和比较。

背景与挑战

背景概述

SPACE benchmark是由Santhosh Kumar Ramakrishnan、Erik Wijmans、Philipp Krähenbühl和Vladlen Koltun等研究人员于2025年提出的一个系统性评估前沿模型空间认知能力的基准。该基准建立在认知科学数十年研究的基础上，旨在评估生物在物理环境中导航时所需的大规模地图构建能力、小规模物体形状与布局推理能力，以及空间注意力和记忆等认知基础设施。通过文本和图像并行呈现任务，SPACE benchmark能够同时评估大型语言模型和多模态模型的空间认知能力。研究结果表明，当前前沿模型在多项经典动物认知测试中表现接近随机水平，凸显了模型在空间智能方面的不足。

当前挑战

SPACE benchmark面临的挑战主要体现在两个方面：在领域问题层面，该基准旨在解决前沿模型空间认知能力评估的标准化问题，但当前模型在多项任务中表现不佳，如何提升模型的空间推理和导航能力成为关键挑战；在构建过程层面，研究者需要整合来自认知科学的经典测试范式，设计能够同时适用于文本和图像输入的评估任务，并确保任务难度和评估指标的合理性，这对数据集的设计和实现提出了较高要求。

常用场景

经典使用场景

在认知科学与人工智能交叉领域，SPACE benchmark作为评估前沿模型空间认知能力的标准化工具，其经典应用场景聚焦于多模态环境下的空间推理任务。通过构建大规模环境导航、物体布局分析以及空间记忆测试等多样化任务体系，该数据集能够全面检验语言模型与多模态模型在鸟类视角估计、距离判断、迷宫补全等典型空间认知任务中的表现。特别值得注意的是，数据集创新性地采用文本与图像并行的呈现方式，为对比研究纯文本模型与多模态模型的认知差异提供了理想实验平台。

衍生相关工作

该数据集催生了系列创新性研究，包括基于空间注意力的模型架构改进（SAtt系列实验）、多模态空间记忆网络（MRT任务衍生工作）等方向。特别值得关注的是，其公开的CSWM（Contrastive Spatial World Model）评估模块启发了后续关于空间表征对比学习的研究浪潮，相关成果已发表于NeurIPS等顶级会议，推动了空间认知建模领域的范式革新。

数据集最近研究