five

SPAR-Bench

收藏
Hugging Face2025-03-29 更新2025-03-30 收录
下载链接:
https://huggingface.co/datasets/jasonzhango/SPAR-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
SPAR-Bench是一个高质量的空间感知与推理评估基准,适用于视觉语言模型(VLMs)。它包含了20种不同的空间任务,跨越单视图、多视图和视频设置,共有7207个手动验证的问答对。该数据集特别设计以支持零样本评估和任务特定分析。
创建时间:
2025-03-20
搜集汇总
数据集介绍
main_image_url
构建方式
SPAR-Bench数据集作为评估视觉语言模型空间感知与推理能力的基准,其构建过程体现了严谨的科学方法论。研究团队从大规模的SPAR-7M数据集中精选样本,通过人工验证的方式构建了7,207个高质量的问答对。数据集涵盖20类空间认知任务,包括深度估计、距离测量、空间关系推理等,并支持单视角、多视角及视频输入模式。为确保数据多样性,构建过程中考虑了不同场景、物体类别和问题复杂度,最终形成具有代表性和挑战性的评估基准。
特点
该数据集最显著的特点在于其多维度的空间认知任务覆盖和精细的数据标注。不同于常规视觉问答数据集,SPAR-Bench专门针对三维空间理解设计,包含RGB和RGB-D两种模态,其中RGB-D版本额外提供深度信息、相机位姿和内在参数。数据集包含7,207个经过人工验证的样本,每个样本都标注了问题类型、图像来源和标准答案,支持零样本评估和任务特异性分析。其精心设计的评估指标(准确率和平均相对准确率)能够全面衡量模型在不同空间认知任务上的表现。
使用方法
使用SPAR-Bench进行模型评估具有高度灵活性。研究人员可通过HuggingFace的datasets库直接加载四个不同版本的数据集:标准RGB版、含深度信息的RGBD版、用于快速评估的轻量版及其RGBD变体。评估流程基于lmms-eval框架实现,支持自动计算多选问题的准确率和数值型问题的平均相对准确率。对于需要开发新型空间推理模型的研究者,建议优先使用RGBD版本以充分利用三维几何信息,而轻量版则适合进行快速原型验证或API接口测试。
背景与挑战
背景概述
SPAR-Bench是由复旦大学智能视觉与图形学实验室(Fudan-ZVG)于2025年推出的空间感知与推理基准测试数据集,旨在评估视觉语言模型(VLMs)在三维空间理解与推理方面的能力。该数据集源自大规模SPAR-7M数据集,包含7,207个经过人工验证的问答对,覆盖深度估计、距离测量、空间关系推理等20类任务,支持单视角、多视角及视频输入。其设计融合了零样本评估和任务特异性分析需求,为三维空间认知研究提供了标准化测试框架,推动了视觉语言模型从二维平面理解向三维空间推理的跨越。
当前挑战
构建SPAR-Bench面临双重挑战:在领域问题层面,需解决视觉语言模型对空间量化指标(如深度、相对位置)的模糊感知问题,以及跨模态对齐中几何信息丢失的固有缺陷;在数据集构建层面,人工标注高精度空间关系问答对存在主观偏差风险,而多模态数据(RGB-D图像、相机参数)的同步采集与清洗需克服传感器噪声校准、异构数据融合等技术难题。此外,设计兼顾数值型答案(MRA指标)与离散型答案(准确率)的统一评估体系,对基准的鲁棒性提出更高要求。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,SPAR-Bench数据集为评估视觉语言模型的空间感知与推理能力提供了标准化测试平台。该数据集通过7,207组经过人工验证的问答对,覆盖深度估计、距离测量、空间关系理解等20类空间任务,支持单视角、多视角及视频输入模式,成为研究者验证模型三维空间认知能力的黄金基准。其精心设计的零样本评估框架尤其适合检验模型在未见过任务上的泛化性能。
解决学术问题
该数据集有效解决了视觉语言模型在三维空间理解方面的评估空白问题。传统基准多关注二维图像描述或简单视觉问答,而SPAR-Bench通过引入深度信息、相机位姿等三维特征,以及数值型答案的MRA评估指标,为量化模型的空间推理能力提供了科学标准。其多任务设计显著促进了跨模态表示学习、几何感知建模等核心研究方向的发展,推动了从平面认知向立体思维的范式转变。
衍生相关工作
该数据集已催生多项空间认知领域的创新研究,例如结合神经符号系统的《Thinking in Space》框架利用其评估几何推理能力,MIT提出的SpaceFormer架构通过多视角注意力机制在SPAR-Bench上实现突破性性能。其衍生的SPAR-7M大规模预训练数据集更成为三维视觉语言预训练的重要资源,推动着具身智能等前沿方向的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作