SpatialBench
收藏github2025-11-27 更新2025-11-28 收录
下载链接:
https://github.com/XPR2004/SpatialBench
下载链接
链接失效反馈官方服务:
资源简介:
SpatialBench是一个基准测试套件,旨在评估多模态大语言模型在视频空间理解方面的能力。该数据集涵盖5个主要类别和15个子类别的空间任务,包括观察与测量、拓扑与组合、符号视觉推理、空间因果关系和空间规划。
SpatialBench is a benchmark suite designed to evaluate the video-based spatial understanding capabilities of multimodal large language models (LLMs). This dataset covers spatial tasks across 5 major categories and 15 subcategories, including observation and measurement, topology and composition, symbolic visual reasoning, spatial causality, and spatial planning.
创建时间:
2025-11-26
原始信息汇总
SpatialBench 数据集概述
数据集基本信息
- 名称:SpatialBench
- 类型:视频空间理解基准测试数据集
- 用途:评估多模态大语言模型在视频空间认知方面的能力
- 关联论文:CVPR 2026论文《SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition》
数据集特征
- 多维度评估:涵盖5大类别和15个子类别的空间任务
- 观察与测量
- 拓扑与组合
- 符号视觉推理
- 空间因果关系
- 空间规划
数据集文件组成
- QA.txt:标准基准数据集,包含空间推理问题
- QA_fewshot.txt:专为"深度引导"模式设计的数据集变体
- test_sample.txt:用于快速测试和调试的小样本数据集
- dataset/:测试视频文件目录
数据格式
- 输入格式:JSON格式,包含样本对象列表
- 样本字段:
- problem_id:问题ID
- path:视频文件路径
- problem_type:问题类型
- problem:问题描述
- options:选项列表
- solution:标准答案
- scene_type:场景类型
评估方法
- 多选题:匹配模型输出选项,正确得1分,错误得0分
- 回归问题:使用平均相对准确率算法,得分范围0-1
- 加权总分:根据不同任务类别的难度和重要性进行加权计算
获取方式
- 下载地址:https://huggingface.co/datasets/XPR2004/SpatialBench
- 下载要求:需要安装Git LFS来下载视频文件
引用信息
bibtex @misc{xu2025spatialbenchbenchmarkingmultimodallarge, title={SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition}, author={Peiran Xu and Sudong Wang and Yao Zhu and Jianing Li and Yunjian Zhang}, year={2025}, eprint={2511.21471}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2511.21471}, }
搜集汇总
数据集介绍

构建方式
在计算机视觉与人工智能领域,对多模态大语言模型的空间认知能力进行系统评估具有重要意义。SpatialBench数据集通过精心设计的视频序列与空间推理问题构建而成,涵盖观察测量、拓扑结构、符号视觉推理、空间因果关系及空间规划五大类别,每个类别下细分15个子任务。数据采集过程融合了真实场景模拟与合成视频生成,确保问题样本在空间维度上的多样性与复杂性。每个样本均包含视频路径、问题描述、选项及标准答案,并采用JSON格式统一存储,为后续自动化评估奠定坚实基础。
特点
该数据集的核心特点在于其多维度的评估体系与灵活的架构设计。它不仅覆盖了从基础物体计数到复杂空间规划的完整认知链条,还支持开放式API接口兼容主流视觉语言模型。数据集提供标准测试、深度引导与多轮对话三种评估模式,其中深度引导模式创新性地引入视频示例实现少样本学习。此外,自动化评估脚本能够精准计算分类准确率与加权总分,其独特的评分逻辑针对选择题采用精确匹配机制,对回归类任务则运用相对准确度算法,确保评估结果的科学性与可比性。
使用方法
使用该数据集时,研究者需通过Git LFS技术从Hugging Face平台获取视频资源,并配置相应的Python依赖环境。基准测试通过执行benchmark_vision_base64.py脚本实现,可根据需求选择标准数据集或少样本数据集进行模型验证。脚本支持多线程并发处理与断点续传功能,通过环境变量灵活配置模型参数与API端点。评估阶段采用专用分析脚本生成结构化报告,详细展示模型在各子任务中的表现。整个流程遵循模块化设计原则,既保障了实验的可重复性,又为不同研究场景提供了定制化解决方案。
背景与挑战
背景概述
随着多模态大语言模型在视觉语言任务中的广泛应用,评估其空间认知能力成为计算机视觉领域的前沿课题。SpatialBench数据集由研究团队于2025年创建,旨在系统评估模型对视频内容的空间理解能力。该数据集覆盖观察测量、拓扑构成、符号视觉推理等五大类任务,通过标准化测试框架推动空间智能研究的发展,为多模态人工智能的认知能力评估提供了重要基准。
当前挑战
视频空间理解任务面临多重挑战:在领域层面,模型需同时处理动态视觉特征与空间逻辑推理,例如从连续帧中提取物体运动轨迹并推断三维空间关系;在构建层面,数据集需平衡真实场景复杂性与标注一致性,既要保证视频样本的物理准确性,又要建立可量化的评估指标以应对开放域问答的多样性。
常用场景
经典使用场景
在计算机视觉与人工智能融合发展的背景下,SpatialBench作为视频空间理解领域的基准测试工具,其经典应用场景集中于系统评估多模态大语言模型对动态视觉场景的解析能力。该数据集通过构建观察测量、拓扑构成、符号视觉推理等五大类空间任务,为模型提供了从物体计数到空间规划的完整测试环境。研究人员可借助其标准化问答框架,精确量化模型在三维空间关系推理、动态物体轨迹追踪等复杂认知任务中的表现,为算法优化提供可靠参照。
解决学术问题
该数据集有效应对了多模态智能系统在空间认知研究中的关键挑战,通过结构化任务设计解决了模型空间表征学习不充分、动态场景理解碎片化等核心问题。其多维评估体系能够系统揭示模型在空间因果关系推断、连续动作规划等高阶认知任务中的能力边界,为建立可解释的空间推理理论框架提供了实证基础。这一基准的建立显著推进了具身智能与环境交互研究的标准化进程。
衍生相关工作
该基准已催生系列创新研究,包括基于注意力机制的空间关系建模框架、融合物理常识的视觉推理模型等代表性工作。部分研究团队受其启发,开发了针对视频时序关系的层次化评估指标,进一步细化了空间认知能力的量化标准。这些衍生成果共同构成了多模态空间推理的研究谱系,持续推动着具身智能与场景理解领域的理论突破与方法创新。
以上内容由遇见数据集搜集并总结生成



