Spatial-benchmarks

github2026-06-29 更新2026-07-01 收录

下载链接：

https://github.com/Algorythmsz/Spatial-Reasoning-Benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库提供了四个空间推理基准测试数据集（SpatialScore、MultihopSpatial、RefSpatial-Expand-Bench和RefSpatial-Bench）以及训练语料库SpatialCorpus的加载工具。这些数据集涵盖多种输出类型（如多选题、边界框、点等），用于评估空间推理能力，并包含详细的数据模式和分类信息。

创建时间：

2026-06-22

原始信息汇总

数据集详情总结：Spatial-Reasoning-Benchmarks

该仓库提供了四个空间推理基准测试（SpatialScore、MultihopSpatial、RefSpatial-Expand-Bench、RefSpatial-Bench）和一个训练语料库（SpatialCorpus）的轻量级加载工具，这些基准测试和语料库均用于论文 POST CRISP 的评估。

评估基准测试

基准测试名称	Hugging Face 仓库	样本数量	输出类型	评分方式	可视化工具
SpatialScore	`haoningwu/SpatialScore`	5,025	混合（选择题/判断/距离/开放）	按问题类型平均	SpatialScore_Viewer
MultihopSpatial	`etri-vilab/MultihopSpatial`	4,500 + 6,791	选择题 + 边界框	Acc@50IoU	MultihopSpatial_Viewer
RefSpatial-Expand-Bench	`JingkunAn/RefSpatial-Expand-Bench`	441（位置/放置配置）	点	点在遮罩内	RefSpatial-Expand-bench_Viewer
RefSpatial-Bench	`BAAI/RefSpatial-Bench`	277（位置/放置/未见）	点	点在遮罩内	—

训练语料库

语料库名称	Hugging Face 仓库	样本数量	格式	大小	可视化工具
SpatialCorpus	`haoningwu/SpatialCorpus`	~331K	多模态问答（SFT）	~73.6 GB	SpatialCorpus_Viewer

安装

bash git clone https://github.com/Algorythmsz/Spatial-Reasoning-Benchmarks cd spatial-benchmarks pip install -e .

需要 Python ≥ 3.10，会自动安装 huggingface_hub、datasets、pyarrow 和 Pillow。

SpatialScore

仓库: haoningwu/SpatialScore (CVPR 2026 Highlight, arXiv:2505.17012)
样本: 5,025 个经过人工验证的样本，组织成 10 个类别下的 30 个子任务。
数据架构: 每条记录包含 id、question、answer、question_type、options、sub_task、category、dataset（用于泄露分析）、image、abs_image 和 extra_info 字段。
10个类别及样本数: Camera (778), Object Localization (697), Object Distance (576), Object Size (559), Depth Estimation (520), Mental Animation (447), View Reasoning (446), Object Motion (415), Counting (315), Temporal Reasoning (272)。
评分方式: 四种评分器，每种产生 [0, 1] 范围内的每样本值：
- multi-choice: 精确匹配二值（随机基线 25%）
- judgement: 是/否二值（随机基线 50%）
- open-ended-distance: MRA (Mean Relative Accuracy)（随机基线 ≈ 0%）
- open-ended-general: LLM 判断或基于规则的字符串匹配
POST CRISP 映射: 高价值子任务包括 Object Localization、3D Positional Relation、Depth & Distance；跳过 camera pose / homography / motion estimation；注意来自 CVBench 和 spatialsense 的泄露风险；泄漏安全的主要指标推荐使用 SpatialScore-Repurpose (1,091 个样本)。

MultihopSpatial

仓库: etri-vilab/MultihopSpatial (ETRI / KAIST 2026, arXiv:2603.18892)
样本: 4,500 个评估样本 + 6,791 个训练样本，涵盖 1/2/3 跳的顺序空间推理。所有评估样本由 10 名经过训练的人工专家标注（Krippendorff α = 0.90）。
数据架构: 每条记录包含 image、question、answer (MCQ)、bbox (以图像百分比表示的 [x1, y1, x2, y2]) 和 hop ("1hop"/"2hop"/"3hop")。
评分方式: 主要指标为 Acc@50IoU，即只有当选择题答案匹配且预测边界框与真实边界框的 IoU ≥ 0.5 时，样本才被计为正确。
POST CRISP 映射: bbox IoU 信号类似于 Track A 的密集奖励；每跳准确率直接衡量多跳训练效果；注意 bbox 的尺度是 0-100（百分比）。

RefSpatial-Expand-Bench

仓库: JingkunAn/RefSpatial-Expand-Bench
样本: 441 个样本，来自 2D 网络、CA-1M 和模拟（Infinigen + Objaverse-LVIS）等多种来源。RefSpatial-Bench 是该数据集的完整子集。
配置: location (241 个样本), placement (200 个样本)。
数据架构: 每条记录包含 id、rgb、mask (二值遮罩)、object、prompt、suffix、category、step 和 scene。
评分方式: 点在遮罩内：模型输出归一化坐标 (x, y)，如果该点落在遮罩的 1 区域内，则预测正确。
POST CRISP 映射: 主要点式遮罩基准测试；按 category 切片分数以揭示模拟到真实的迁移差距；按 step 衡量组合泛化能力。

RefSpatial-Bench

仓库: BAAI/RefSpatial-Bench (arXiv:2506.04308, RoboRefer)
说明: 是 RefSpatial-Expand-Bench 的完整子集。
样本: 277 个样本，分为 3 个分割：
- location: 100 个样本（在 RoboRefer 训练分布内）
- placement: 100 个样本（在 RoboRefer 训练分布内）
- unseen: 77 个样本（RoboRefer 从未见过的空间关系组合，最强 OOD 泛化信号）
数据架构: 每条记录包含 id、image、mask、object、prompt、suffix 和 step。
评分方式: 与 RefSpatial-Expand-Bench 相同，即点式遮罩。
POST CRISP 映射: 77 个 unseen 样本是论文的 OOD 评估；按步长准确率直接衡量组合泛化能力；POST CRISP 故意不训练 RefSpatial-20M，以保持与 RoboRefer 的公平比较。

SpatialCorpus

仓库: haoningwu/SpatialCorpus (CVPR 2026 Highlight, arXiv:2505.17012)
说明: 约 331K 个多模态 QA 样本，用于对视觉语言模型进行空间推理任务的有监督微调。这是训练数据，不是评估基准。
数据架构: 记录共享与 SpatialScore 类似的核心字段，包括 id、question、answer、question_type、options、sub_task、category、dataset、image 和 abs_image，可能还包含 SFT 特定字段。
POST CRISP 映射: 主要用于泄露分析（检查基准样本是否出现在语料库中）和训练集消融（子任务覆盖）。POST CRISP 不在此语料库上进行微调。

许可证

代码：Apache-2.0。每个基准测试的数据遵循其原始许可证。

搜集汇总

数据集介绍

构建方式

在空间推理与视觉语言理解交叉领域，数据集构建的规范性直接决定评估的可信度。Spatial-benchmarks项目通过统一的轻量加载接口，将四个具有原生不同模式的空间推理基准——点掩膜（point-in-mask）、边界框交并比（bbox IoU）、平均相对精度（MRA）与多项选择（MCQ）——整合为可直接调用的评估套件。四个基准各自沿袭其原始数据模式：SpatialScore包含5025个经人工校验的样本，覆盖30个子任务与10个类别，图像档案约15.8 GB；MultihopSpatial包含4500个评估样本与6791个训练样本，全部由10名训练有素的专家标注（Krippendorff α=0.90）；RefSpatial-Expand-Bench汇集441个来自2D网页、CA-1M及仿真环境（Infinigen与Objaverse-LVIS）的样本，其中RefSpatial-Bench作为其完整子集包含277个样本及77个未见组合的OOD划分。训练语料SpatialCorpus包含约33.1万条多模态问答样本，覆盖与SpatialScore相同的类别与子任务，图像档案约73.6 GB。

特点

本数据集的核心价值在于其精细化的能力诊断维度与严格的质量控制。SpatialScore提供30个子任务级别的细粒度评估，覆盖从绝对深度、物体定位到时间推理的十类空间能力，并且每条样本记录来源数据集，支持泄露分析。MultihopSpatial创新性地引入Acc@50IoU指标，要求模型在正确回答多项选择的同时，预测边界框与真值的交并比达到0.5以上，从而消除“答对但定位错误”的虚假正确。RefSpatial系列采用点掩膜评分机制，以点是否落在掩膜区域内为唯一判定标准，其未见划分（unseen split）包含77个在RoboRefer训练中从未出现的空间关系组合，为分布外泛化提供严苛测试。四个基准形成从原子能力到组合推理的消融梯度：SpatialScore诊断单维度技能，MultihopSpatial测试多跳推理的定位忠实度，RefSpatial的步数维度衡量组合泛化能力，而Expand-Bench的类别标签则揭示模拟到真实的迁移鸿沟。

使用方法

使用者可通过安装spatial-benchmarks包后调用各自加载函数快速获取数据。SpatialScore使用load_spatialscore()返回5025条记录列表，首次调用自动下载并解压约15.8 GB图像档案，支持通过extract_images=False跳过图像加载以快速查看模式。MultihopSpatial使用load_multihop('test')返回datasets.Dataset对象，可直接利用.filter()、.map()等方法处理，其边界框坐标采用0-100百分比尺度，需注意归一化。RefSpatial-Expand-Bench与RefSpatial-Bench均通过load_refspatial_expand('location')、load_refspatial_bench('unseen')加载各划分，评分需实现点掩膜函数，将模型输出的归一化坐标映射至二值掩膜判定。SpatialCorpus作为训练语料，通过load_spatialcorpus()加载约33.1万条SFT格式数据，主要用于泄露分析——通过比对record['dataset']字段与SpatialScore中的同名字段量化重叠。所有加载器内置缓存机制，重复调用免去重复下载。

背景与挑战

背景概述

空间推理能力是视觉语言模型迈向通用智能的关键基石，然而现有基准测试往往局限于单一维度，难以系统性评估模型在多样化空间场景中的综合表现。在此背景下，由多所顶尖研究机构联合构建的Spatial-benchmarks数据集于2025至2026年间应运而生，核心贡献者包括Haoning Wu、Jingkun An以及ETRI与KAIST的研究团队。该数据集旨在解决空间认知评估碎片化的问题，其核心研究问题聚焦于如何精准诊断模型在方位定位、距离估计、多跳推理及组合泛化等原子级能力上的表现。通过集成SpatialScore、MultihopSpatial、RefSpatial-Bench与RefSpatial-Expand-Bench四大基准，该数据集不仅为CVPR 2026等顶级会议提供了高影响力的评估工具，更推动了空间感知领域从粗粒度评分向细粒度能力剖析的范式转变。

当前挑战

领域层面，空间推理评估面临的核心挑战在于多模态与多样性的交织：模型需同时处理点掩码匹配、边界框交并比、多跳问答及开放式生成等多种输出范式，而不同子任务（如绝对深度估计与方向判定）的随机基线差异悬殊（从0%到50%），直接平均分数极易掩盖真实能力短板。构建过程中，数据采集与质量控制同样充满艰辛：SpatialScore以15.8 GB图像档案支撑5025份人工校验样本，需从多个源数据集中聚合以避免信息泄露；MultihopSpatial动员十位训练有素的专家完成标注，其Krippendorff α达到0.90的高一致性；RefSpatial-Expand-Bench则整合了真实世界与仿真环境（Infinigen、Objaverse-LVIS）的异构数据，面临模拟到现实迁移评估的额外复杂性。

常用场景

经典使用场景

在计算机视觉与多模态推理的交叉领域，Spatial-benchmarks 数据集被广泛用于评估视觉语言模型的空间推理能力。其经典使用场景涵盖了对模型在绝对深度估计、相对距离判断、视角推理、物体定位等多维度空间认知技能的诊断性评测。通过整合 SpatialScore、MultihopSpatial、RefSpatial-Bench 及 RefSpatial-Expand-Bench 四个异构基准，研究者能够在统一框架下系统性地测试模型从原子级空间感知到组合式多跳推理的完整能力图谱。该数据集的精细任务划分与标准化评分协议，为对比不同架构或训练策略的模型在空间理解上的优劣提供了可靠的量化依据。

解决学术问题

该数据集有效解决了当前视觉语言模型评估中普遍存在的空间推理能力混淆与度量不透明的问题。在学术研究中，传统基准往往将多个空间子能力混为一谈，导致模型在整体分数提升下掩盖了特定维度的缺陷。Spatial-benchmarks 通过引入细粒度的子任务分类、每个样本的源数据集追溯以及按问题类型拆解的评分机制，使研究者能够精准定位模型在绝对深度、物体定位、多跳推理等具体能力上的短板。其提出的点遮罩匹配、边界框 IoU 联合得分、平均相对准确率等评测手段，大幅降低了偶然性正确的干扰，为空间推理领域的可复现研究与公平比较奠定了坚实基础。

衍生相关工作

Spatial-benchmarks 数据集衍生了多个具有影响力的后续工作，进一步推动了空间推理领域的发展。其中，RoboRefer 项目直接以 RefSpatial-Bench 作为核心评测基准，验证了其多跳指代分割模型在未见过的空间关系组合上的泛化能力。基于 SpatialCorpus 训练语料，研究者开展了大量关于数据规模与空间推理能力关系的消融实验，揭示了训练数据中特定子任务的覆盖程度对评测性能的直接影响。此外，CRISP 框架及其后续工作 POST CRISP 以该基准套件为评测平台，提出了基于筛选链的数据整理方法，在保持模型参数量不变的情况下显著提升了空间推理表现。这些工作共同构成了以该数据集为中心的研究生态，持续滋养着该方向的学术创新。

以上内容由遇见数据集搜集并总结生成