SpatialScore

Name: SpatialScore
Creator: 上海交通大学人工智能学院, 上海人工智能实验室, 天津大学
Published: 2025-05-23 01:59:03
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://haoningwu3639.github.io/SpatialScore

下载链接

链接失效反馈

官方服务：

资源简介：

SpatialScore是一个全面的、多样化的多模态空间理解基准数据集，旨在评估多模态大型语言模型（MLLMs）的空间理解能力。该数据集由28,093个样本组成，涵盖了各种空间理解任务、模态和QA格式，并包含一个精心策划的具有挑战性的子集SpatialScore-Hard。SpatialScore整合了VGBench和来自其他11个现有数据集的相关数据，涵盖了计数、物体定位、3D位置关系、深度和距离、物体属性、相机和图像转换、点/物体跟踪等多个类别。该数据集的创建旨在为未来MLLMs的发展提供一个有价值的资源和严格的测试平台。

SpatialScore is a comprehensive and diverse multimodal spatial understanding benchmark dataset designed to evaluate the spatial understanding capabilities of multimodal large language models (MLLMs). Comprising 28,093 samples, this dataset covers a wide range of spatial understanding tasks, modalities and QA formats, and includes a carefully curated challenging subset named SpatialScore-Hard. SpatialScore integrates VGBench and relevant data from 11 existing datasets, covering multiple categories such as counting, object localization, 3D positional relationships, depth and distance, object attributes, camera and image transformations, point/object tracking, and others. This dataset is created to provide a valuable resource and a rigorous test platform for the future development of MLLMs.

提供机构：

上海交通大学人工智能学院, 上海人工智能实验室, 天津大学

创建时间：

2025-05-23

原始信息汇总

SpatialScore数据集概述

数据集基本信息

名称: SpatialScore
目标: 评估多模态大语言模型(MLLMs)的空间理解能力
开发团队:
- Haoning Wu (上海交通大学人工智能学院/上海AI实验室)
- Xiao Huang (上海交通大学人工智能学院/天津大学)
- Yaohui Chen (上海交通大学人工智能学院)
- Ya Zhang (上海交通大学人工智能学院/上海AI实验室)
- Yanfeng Wang (上海交通大学人工智能学院/上海AI实验室)
- Weidi Xie (上海交通大学人工智能学院/上海AI实验室)
状态: Under Review

数据集组成

VGBench: 专门评估视觉几何感知能力的基准(如相机姿态和运动估计)
SpatialScore:
- 整合VGBench和其他11个现有数据集的相关数据
- 包含28K样本，涵盖各种空间理解任务、模态和QA格式
- 包含精选的挑战性子集SpatialScore-Hard

任务类别

Counting (计数)
Object Localization (物体定位)
3D Positional Relation (3D位置关系)
Depth & Distance (深度和距离)
Object Properties (物体属性)
Camera & Image Transformation (相机和图像变换)

评估方法

SpatialAgent:
- 包含9个专门用于空间理解的专业工具
- 支持Plan-Execute和ReAct两种推理范式

资源链接

代码: GitHub
论文: arXiv
数据: HuggingFace
引用: BibTeX

搜集汇总

数据集介绍

构建方式

SpatialScore数据集的构建采用了多源数据整合与精细筛选的策略。研究团队首先开发了专注于视觉几何感知的VGBench基准，通过从ScanNet、ScanNet++等4个三维重建数据集中精选300个场景，结合预定义问题模板和LLM改写技术，生成了6,000个涵盖判断、多选和开放式问答的高质量样本。在此基础上，进一步整合了来自MMVP、RealWorldQA等11个现有数据集的28,093个空间推理样本，形成覆盖8大任务类别的综合评估体系。为确保评估的挑战性，还通过20个MLLM模型的投票筛选和人工校验，构建了包含1,400个高难度样本的SpatialScore-Hard子集。整个构建过程注重数据多样性控制，采用LLM改写增强语言变化，并通过几何扰动和对抗样本设计确保评估的严谨性。

特点

SpatialScore作为当前最全面的多模态空间理解基准，具有三个显著特征：多维评估体系覆盖视觉几何感知（相机位姿、深度估计等）和空间关系推理（物体定位、三维位置关系等）两大核心能力；多模态输入支持单幅图像、多帧序列和完整视频三种形式，以及判断、多选和开放式三种问答格式；层次化难度设计包含基础版和精心筛选的Hard子集。特别值得注意的是其28K样本中视频数据占比达18%，且通过对抗性干扰项设计确保评估的区分度，为模型的空间理解能力提供了细粒度评估维度。

使用方法

使用SpatialScore进行评估时需注意三个关键环节：输入处理阶段需根据样本类型适配单图或多帧输入格式，对视频数据建议均匀采样8帧；回答解析需区分题型采用不同策略，判断/选择题型直接比对选项，开放式数值题采用δ=2容错阈值（0.5×至2×区间视为正确）；工具增强评估可结合SpatialAgent多智能体系统，通过9个专业工具（深度估计、光流分析等）的协同运作提升模型表现。基准提供标准化评估协议，建议同时报告总体准确率和Hard子集表现，以全面反映模型的空间推理能力。

背景与挑战

背景概述

SpatialScore是由上海交通大学和上海人工智能实验室的研究团队于2025年提出的多模态空间理解评估基准。该数据集整合了专门设计的VGBench（包含6,000个视觉几何感知样本）及其他11个现有数据集的相关数据，形成了包含28,093个样本的综合性评估体系，涵盖8类空间理解任务和3种问答形式。作为首个系统评估多模态大语言模型（MLLMs）三维空间感知能力的基准，其创新性地引入了挑战性子集SpatialScore-Hard（1,400个样本），通过多模型投票和人工验证筛选出当前模型普遍失败的案例。该工作发表在计算机视觉顶会arXiv预印本上，为自动驾驶、具身智能等需要空间推理能力的领域提供了标准化评估工具。

当前挑战

SpatialScore面临的核心挑战体现在两个方面：在领域问题层面，现有MLLMs在视觉几何感知（如相机位姿估计、深度测量）和复杂三维空间关系理解方面表现显著不足，模型规模扩大并未带来相应能力提升；在构建层面，需解决多源数据集整合的异构性问题（包括11个数据集的模态差异、标注标准不统一），以及保证VGBench中数学精确的几何问题（如单应矩阵估计）具有足够的对抗性干扰项。技术挑战还包括开发支持Plan-Execute和ReAct两种推理范式的多智能体系统SpatialAgent，其需协调9个专业工具（如深度估计、光流分析）的动态调用，这对工具接口标准化和错误传播控制提出了极高要求。

常用场景

经典使用场景

SpatialScore数据集被广泛用于评估多模态大语言模型（MLLMs）在空间理解任务中的表现，特别是在3D几何感知、相机姿态估计和动态场景分析等方面。该数据集通过整合来自多个现有数据集的样本，提供了多样化的任务和问题格式，使得研究者能够全面测试模型在复杂空间推理任务中的能力。

实际应用

在实际应用中，SpatialScore数据集可用于开发和优化自动驾驶系统、机器人导航和增强现实（AR）等领域的多模态模型。其全面的任务设计和多样化的输入模态（如图像、视频和多帧序列）使其成为测试模型在真实场景中空间理解能力的理想工具。

衍生相关工作

SpatialScore的推出催生了一系列相关研究，特别是在多模态空间理解和视觉几何感知领域。例如，基于该数据集的研究工作进一步开发了SpatialAgent，一个多代理系统，通过集成多种专用工具来增强MLLMs的空间推理能力。此外，该数据集还激发了更多关于3D视觉理解和动态场景分析的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集