srbench

Name: srbench
Creator: 爱丁堡大学
Published: 2025-03-25 22:34:06
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://huggingface.co/datasets/stogiannidis/srbench

下载链接

链接失效反馈

官方服务：

资源简介：

srbench数据集是由爱丁堡大学的研究团队创建的，旨在评估视觉语言模型在空间推理方面的性能。该数据集包括算法生成的图像和真实世界图像，涵盖了空间关系、方向与导航、心理旋转和空间可视化等多个空间推理的基本要素，通过特定的任务来评估模型在合成和现实世界图像上的表现。

The srbench dataset was developed by a research team at the University of Edinburgh, with the goal of evaluating the performance of vision-language models (VLMs) in spatial reasoning. This dataset encompasses both algorithmically generated images and real-world images, covering multiple core elements of spatial reasoning including spatial relations, orientation and navigation, mental rotation, and spatial visualization. It assesses model performance on both synthetic and real-world images through specific tasks.

提供机构：

爱丁堡大学

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

srbench数据集通过多模态方法构建，结合了程序化生成、GenAI合成以及真实世界图像，旨在全面评估视觉语言模型的空间推理能力。数据生成过程包括心理旋转测试（MRT）的两种变体（mrt-hard和mrt-easy）、空间可视化测试（如折纸测试）、空间关系测试（基于Spatial-Obj数据集）以及方向与导航测试（来自MazeNav和EgoOrientBench）。每种测试均通过Python脚本或现有基准数据集生成，确保数据的多样性和可控性。

特点

srbench数据集的核心特点在于其系统性隔离了空间推理的四大关键组件：空间关系、方向与导航、心理旋转及空间可视化。数据集包含1800个图像-问题对，均匀分布在上述组件中，既包含高度控制的合成图像（如无背景的3D多立方体），也包含真实场景图像（如迷宫导航任务）。这种设计不仅提供了对模型能力的细粒度评估，还通过GenAI生成的图像进一步探索了模型在自然视觉线索下的表现差异。

使用方法

使用srbench时，研究者可通过HuggingFace平台加载数据集，并利用PyTorch框架进行模型评估。评估协议采用贪婪解码策略，要求模型直接输出答案选项（如A/B/C/D或yes/no），并通过正则表达式匹配响应准确性。数据集支持多GPU并行推理（如4×A100），且所有图像-问题对均附带结构化元数据（JSONL格式），便于结果分析与可复现性验证。

背景与挑战

背景概述

srbench数据集由爱丁堡大学的Ilias Stogiannidis、Steven McDonagh和Sotirios A. Tsaftaris团队于2025年提出，旨在系统评估视觉语言模型（VLMs）在空间推理任务上的表现。该数据集通过结合程序生成图像、生成式AI合成图像及真实场景图像，构建了一个多维度评估框架，重点关注空间关系、方向导航、心理旋转和空间可视化四大核心能力。其创新性在于首次将认知科学中的标准化测试范式（如心理旋转测试、折纸测试）转化为可计算评估任务，填补了现有VLM评测体系在分离式空间能力评估方面的空白。该工作发表于计算机视觉顶会CVPR，对推动具身智能、机器人导航等需要空间认知的应用具有重要方法论意义。

当前挑战

srbench揭示了当前VLMs在空间推理领域的双重挑战：在领域问题层面，模型在心理旋转（平均准确率29.5%）和复杂导航任务（最佳模型35.5%）的表现接近随机水平，暴露出现有架构难以处理空间变换的本质缺陷；在构建层面，数据集需平衡认知测试的严谨性与视觉任务的生态效度——既要通过程序化生成确保空间关系的精确控制（如多面体旋转角度公差±1°），又要避免合成图像与模型训练数据的分布偏移。此外，标注过程中需解决空间关系描述的歧义性（如'左侧'的参照系定义），这要求开发新型的众包验证协议与几何一致性检查算法。

常用场景

经典使用场景

在视觉-语言模型（VLMs）的研究领域，srbench数据集被广泛用于评估模型在空间推理任务中的表现。该数据集通过精心设计的心理旋转测试、空间可视化任务以及空间关系理解问题，为研究者提供了一个全面的评估平台。特别是在需要模型理解物体旋转、空间方位和导航等复杂场景时，srbench展现了其独特的价值。

实际应用

在实际应用中，srbench数据集为机器人技术、自动驾驶和增强现实等领域提供了重要的参考依据。例如，在自动驾驶系统中，模型需要准确理解车辆周围物体的空间关系以做出安全决策。通过使用srbench，开发者能够评估和改进模型在复杂环境中的空间推理能力，从而提升系统的可靠性和适应性。

衍生相关工作

srbench的推出激发了多项相关研究，例如SpatialVLM和SpatialRGPT等工作的出现。这些研究进一步扩展了空间推理在视觉-语言模型中的应用范围，并通过结合3D场景图和深度信息增强了模型的性能。此外，srbench还为后续的基准测试（如EgoOrientBench和MazeNav）提供了灵感，推动了该领域的持续发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集