SpatialBench
收藏arXiv2025-11-26 更新2025-11-28 收录
下载链接:
https://github.com/XPR2004/SpatialBench
下载链接
链接失效反馈官方服务:
资源简介:
SpatialBench是由多所顶尖学术机构联合构建的大规模空间认知评估数据集,专为测评多模态大语言模型的空间推理能力而设计。该数据集包含1,347个精细标注的问答对,源自50个第一人称视角视频,覆盖室内外静态与动态场景,数据来源通过定制传感平台采集的实景录像。数据集构建采用分层认知框架,将空间智能分解为五个渐进层级,通过专业标注流程实现多维度能力评估。该数据集主要应用于人工智能领域,旨在系统解决现有模型在符号推理、因果推断和路径规划等高级空间认知任务中的能力缺陷问题。
SpatialBench is a large-scale spatial cognitive assessment dataset jointly developed by multiple leading academic institutions, specifically designed to evaluate the spatial reasoning capabilities of multimodal large language models. This dataset contains 1,347 meticulously annotated question-answer pairs sourced from 50 first-person perspective videos, covering both indoor and outdoor static and dynamic scenarios. The data is collected from real-world footage captured via a custom sensing platform. The dataset is constructed using a hierarchical cognitive framework, which decomposes spatial intelligence into five progressive levels, and enables multi-dimensional capability assessment through a professional annotation workflow. Primarily applied in the field of artificial intelligence, this dataset aims to systematically resolve the capability deficits of existing models in advanced spatial cognitive tasks such as symbolic reasoning, causal inference and path planning.
提供机构:
中山大学、香港科技大学(广州)、浙江大学、北京大学、中国科学院大学
创建时间:
2025-11-26
原始信息汇总
SpatialBench 数据集概述
数据集基本信息
- 数据集名称: SpatialBench
- 核心功能: 评估多模态大语言模型的视频空间理解能力
- 关联论文: CVPR 2026论文《SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition》
- 论文链接: https://arxiv.org/abs/2511.21471
数据集特点
- 多维度评估: 涵盖5个主要类别和15个子类别的空间任务
- 任务类型: 观察与测量、拓扑与组合、符号视觉推理、空间因果关系、空间规划
- 支持模型: 兼容OpenAI Chat Completion API的任何视觉语言模型
数据集文件组成
- QA.txt: 标准基准数据集,包含空间推理问题
- QA_fewshot.txt: 深度引导模式数据集,用于少样本学习
- test_sample.txt: 快速测试和调试的小样本数据集
- dataset/: 测试视频文件目录
数据格式规范
json [ { "sample": { "problem_id": 1001, "path": "dataset/video_01.mp4", "problem_type": "object_counting", "problem": "How many red cups are in the video?", "options": ["1", "2", "3", "4"], "solution": "<answer>2</answer>", "scene_type": "indoor" } } ]
评估方法
- 多选题: 匹配模型输出选项,正确得1分,错误得0分
- 回归问题: 使用平均相对精度算法,得分范围0-1
- 加权总分: 根据不同任务类别的难度和重要性计算最终得分
引用信息
@misc{xu2025spatialbenchbenchmarkingmultimodallarge, title={SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition}, author={Peiran Xu and Sudong Wang and Yao Zhu and Jianing Li and Yunjian Zhang}, year={2025}, eprint={2511.21471}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2511.21471}, }
搜集汇总
数据集介绍

构建方式
在空间认知研究领域,SpatialBench通过构建层次化评估框架来系统化衡量多模态大语言模型的空间智能。该数据集采用定制化传感平台采集真实世界的第一人称视角视频,同步整合高分辨率RGB相机与三维激光雷达传感器,确保视觉流与几何点云数据的时空对齐。数据覆盖室内外多样化环境,包括城市道路、森林小径等动态与静态场景,并通过人工协作与AI辅助生成机制,构建了涵盖15类空间推理任务的1347组问答对,结合几何测量与语义推理形成多模态标注体系。
特点
SpatialBench的突出特征在于其基于认知地图理论建立的五层空间认知分级体系,从基础观察到高层规划逐级递进。该数据集通过第一人称视频呈现真实场景的空间复杂性,每个任务类型均与特定认知层级严格对应,例如观察层级的物体计数与拓扑层级的相对方向推理。其评估指标创新性地引入能力导向的整体评分机制,通过自适应权重平衡不同认知层级的贡献度,从而实现对模型空间推理能力的统一量化与跨任务可比性。
使用方法
该数据集作为空间认知评估基准,支持对多模态大语言模型的系统性能力诊断。研究者可通过加载标准化的视频问答对,采用零样本或单样本提示策略测试模型在不同认知层级的表现。评估过程需遵循数据集设计的层次化评分框架,利用提供的几何真值验证数值类任务,并通过多模型一致性检验确保语义类任务的可靠性。实验结果表明,该基准能有效揭示模型在符号推理与因果推断等高层认知任务中的能力瓶颈,为空间智能系统的优化提供明确方向。
背景与挑战
背景概述
SpatialBench作为多模态大语言模型空间认知能力评估的重要基准,由中山大学、香港科技大学(广州)、浙江大学等机构的研究团队于2025年联合提出。该数据集基于认知地图理论构建了五层递进式空间认知框架,涵盖从基础感知到高级规划的完整认知谱系。通过融合真实场景采集的视觉数据与精细标注的认知任务,该数据集填补了现有评估体系在空间认知层次化建模方面的空白,为探索机器智能与人类空间认知机制的差异提供了系统化实验平台。
当前挑战
在领域问题层面,SpatialBench需解决多模态大语言模型在符号推理、因果推断与路径规划等高层认知任务中的系统性缺陷,其核心挑战在于建立视觉符号与抽象语义的稳定映射关系。构建过程中面临多模态数据同步校准的工程难题,需确保RGB视频流与激光雷达点云数据的时空对齐精度。同时,标注体系需维持五层认知维度的一致性,通过人机协同验证机制保证复杂推理问题标注的可靠性,这对标注人员的空间认知理解与跨模态数据处理能力提出了极高要求。
常用场景
经典使用场景
在空间认知研究领域,SpatialBench作为首个基于层次化认知框架的多模态大模型评估基准,其经典应用场景聚焦于系统化评测模型从基础感知到高级规划的渐进式空间推理能力。该数据集通过15类精细化任务覆盖观察、拓扑关系、符号推理、因果推断及路径规划五个认知层级,为研究者提供了诊断模型空间智能短板的标准化实验平台,尤其适用于分析模型在动态真实场景中的多维度表现差异。
衍生相关工作
该数据集的层次化评估框架催生了系列创新研究,例如基于认知地图理论的符号推理增强方法、面向连续场景的空间一致性建模技术等。其揭示的模型注意力分散问题启发了选择性感知机制的设计,而人类与模型推理路径的对比分析则推动了目标导向抽象能力的研究浪潮,为构建具有人类级空间智能的多模态系统奠定了方法论基础。
数据集最近研究
最新研究方向
在空间认知作为多模态智能核心能力的背景下,SpatialBench通过构建层次化评估框架,将空间智能分解为从基础感知到高级规划的五个渐进层级,推动了多模态大模型在复杂环境中的深度推理研究。当前前沿聚焦于提升模型在符号推理、因果推断与路径规划等高层级任务的表现,尤其关注模型从感知细节到抽象空间意图的转化能力。相关热点包括利用真实场景视频数据增强模型对动态空间关系的理解,以及通过人类与模型认知差异分析揭示注意力机制与目标导向推理的差距。这一方向对自动驾驶、具身智能等领域的空间决策系统发展具有奠基性意义,为构建具备人类级空间智能的模型提供了系统化评估基准与理论支撑。
相关研究论文
- 1SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition中山大学、香港科技大学(广州)、浙江大学、北京大学、中国科学院大学 · 2025年
以上内容由遇见数据集搜集并总结生成



