five

srbench

收藏
arXiv2025-03-25 更新2025-03-27 收录
下载链接:
https://huggingface.co/datasets/stogiannidis/srbench
下载链接
链接失效反馈
官方服务:
资源简介:
srbench数据集是由爱丁堡大学的研究团队创建的,旨在评估视觉语言模型在空间推理方面的性能。该数据集包括算法生成的图像和真实世界图像,涵盖了空间关系、方向与导航、心理旋转和空间可视化等多个空间推理的基本要素,通过特定的任务来评估模型在合成和现实世界图像上的表现。

The srbench dataset was developed by a research team at the University of Edinburgh, with the goal of evaluating the performance of vision-language models (VLMs) in spatial reasoning. This dataset encompasses both algorithmically generated images and real-world images, covering multiple core elements of spatial reasoning including spatial relations, orientation and navigation, mental rotation, and spatial visualization. It assesses model performance on both synthetic and real-world images through specific tasks.
提供机构:
爱丁堡大学
创建时间:
2025-03-25
搜集汇总
数据集介绍
main_image_url
构建方式
srbench数据集通过多模态方法构建,结合了程序化生成、GenAI合成以及真实世界图像,旨在全面评估视觉语言模型的空间推理能力。数据生成过程包括心理旋转测试(MRT)的两种变体(mrt-hard和mrt-easy)、空间可视化测试(如折纸测试)、空间关系测试(基于Spatial-Obj数据集)以及方向与导航测试(来自MazeNav和EgoOrientBench)。每种测试均通过Python脚本或现有基准数据集生成,确保数据的多样性和可控性。
特点
srbench数据集的核心特点在于其系统性隔离了空间推理的四大关键组件:空间关系、方向与导航、心理旋转及空间可视化。数据集包含1800个图像-问题对,均匀分布在上述组件中,既包含高度控制的合成图像(如无背景的3D多立方体),也包含真实场景图像(如迷宫导航任务)。这种设计不仅提供了对模型能力的细粒度评估,还通过GenAI生成的图像进一步探索了模型在自然视觉线索下的表现差异。
使用方法
使用srbench时,研究者可通过HuggingFace平台加载数据集,并利用PyTorch框架进行模型评估。评估协议采用贪婪解码策略,要求模型直接输出答案选项(如A/B/C/D或yes/no),并通过正则表达式匹配响应准确性。数据集支持多GPU并行推理(如4×A100),且所有图像-问题对均附带结构化元数据(JSONL格式),便于结果分析与可复现性验证。
背景与挑战
背景概述
srbench数据集由爱丁堡大学的Ilias Stogiannidis、Steven McDonagh和Sotirios A. Tsaftaris团队于2025年提出,旨在系统评估视觉语言模型(VLMs)在空间推理任务上的表现。该数据集通过结合程序生成图像、生成式AI合成图像及真实场景图像,构建了一个多维度评估框架,重点关注空间关系、方向导航、心理旋转和空间可视化四大核心能力。其创新性在于首次将认知科学中的标准化测试范式(如心理旋转测试、折纸测试)转化为可计算评估任务,填补了现有VLM评测体系在分离式空间能力评估方面的空白。该工作发表于计算机视觉顶会CVPR,对推动具身智能、机器人导航等需要空间认知的应用具有重要方法论意义。
当前挑战
srbench揭示了当前VLMs在空间推理领域的双重挑战:在领域问题层面,模型在心理旋转(平均准确率29.5%)和复杂导航任务(最佳模型35.5%)的表现接近随机水平,暴露出现有架构难以处理空间变换的本质缺陷;在构建层面,数据集需平衡认知测试的严谨性与视觉任务的生态效度——既要通过程序化生成确保空间关系的精确控制(如多面体旋转角度公差±1°),又要避免合成图像与模型训练数据的分布偏移。此外,标注过程中需解决空间关系描述的歧义性(如'左侧'的参照系定义),这要求开发新型的众包验证协议与几何一致性检查算法。
常用场景
经典使用场景
在视觉-语言模型(VLMs)的研究领域,srbench数据集被广泛用于评估模型在空间推理任务中的表现。该数据集通过精心设计的心理旋转测试、空间可视化任务以及空间关系理解问题,为研究者提供了一个全面的评估平台。特别是在需要模型理解物体旋转、空间方位和导航等复杂场景时,srbench展现了其独特的价值。
实际应用
在实际应用中,srbench数据集为机器人技术、自动驾驶和增强现实等领域提供了重要的参考依据。例如,在自动驾驶系统中,模型需要准确理解车辆周围物体的空间关系以做出安全决策。通过使用srbench,开发者能够评估和改进模型在复杂环境中的空间推理能力,从而提升系统的可靠性和适应性。
衍生相关工作
srbench的推出激发了多项相关研究,例如SpatialVLM和SpatialRGPT等工作的出现。这些研究进一步扩展了空间推理在视觉-语言模型中的应用范围,并通过结合3D场景图和深度信息增强了模型的性能。此外,srbench还为后续的基准测试(如EgoOrientBench和MazeNav)提供了灵感,推动了该领域的持续发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作