SpatialScore

github2025-05-29 更新2025-05-31 收录

下载链接：

https://github.com/haoningwu3639/SpatialScore

下载链接

链接失效反馈

官方服务：

资源简介：

SpatialScore是一个用于多模态空间理解的统一评估基准，包括VGBench和SpatialScore两个部分。

SpatialScore serves as a unified evaluation benchmark for multimodal spatial understanding, encompassing both VGBench and SpatialScore components.

创建时间：

2025-05-20

原始信息汇总

SpatialScore数据集概述

数据集基本信息

名称: SpatialScore
类型: 多模态空间理解评估基准
包含子集: VGBench和SpatialScore
状态: 持续更新中(SpatialScore-Hard待发布)

核心功能

提供统一的多模态空间理解评估框架
支持Qwen2.5VL和InternVL系列模型的评估
包含SpatialAgent专家工具系统(开发中)

数据获取

主下载地址: Huggingface数据集仓库
备用下载方式: 使用hf-mirror镜像
下载命令: bash huggingface-cli download --resume-download --repo-type dataset haoningwu/SpatialScore --local-dir ./ --local-dir-use-symlinks False unzip SpatialScore.zip

评估方法

bash

Qwen2.5VL评估

CUDA_VISIBLE_DEVICES=0,1 python test_qwen.py --model_name qwen2_5vl-7b --model_path ./huggingface/Qwen2.5-VL-7B-Instruct --dataset_json_path ./dataset/SpatialScore.json --dataset_name all --output_dir ./eval_results

InternVL评估

CUDA_VISIBLE_DEVICES=0,1 python test_qwen.py --model_name internvl3-8b --model_path ./huggingface/InternVL3-8B --dataset_json_path ./dataset/SpatialScore.json --dataset_name all --output_dir ./eval_results

开发计划

[ ] SpatialScore-Hard数据集发布
[ ] 数据构建代码开源
[ ] 全模型统一评估脚本
[ ] SpatialAgent完整推理代码

引用格式

bibtex @article{wu2025spatialscore, author = {Wu, Haoning and Huang, Xiao and Chen, Yaohui and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, title = {SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding}, journal = {arXiv preprint arXiv:2505.17012}, year = {2025}, }

系统要求

Python ≥ 3.10
PyTorch ≥ 2.5.1
accelerate == 1.5.2
triton == 3.2.0
transformers == 4.51.3

联系方式

邮箱: haoningwu3639@gmail.com

搜集汇总

数据集介绍

构建方式

在空间理解评估领域，SpatialScore数据集的构建采用了多模态融合的先进理念。研究团队通过精心设计的评估框架，整合了视觉与语言模态的数据样本，构建了包含VGBench和SpatialScore两个子集的综合性基准测试。数据集通过严格的标注流程和专家验证，确保了样本的质量和多样性，为空间理解能力的评估提供了可靠的基础。

使用方法

使用该数据集时，研究人员可通过Huggingface平台直接下载完整数据集。评估过程支持主流模型架构，特别是针对Qwen2.5VL和InternVL系列模型提供了专门的测试脚本。用户只需配置好Python环境，按照提供的命令行参数执行评估，即可获得模型在空间理解任务上的详细性能指标。数据集还预留了未来扩展的接口，将支持更多模型的统一评估。

背景与挑战

背景概述

SpatialScore数据集由Haoning Wu等人于2025年提出，旨在推动多模态空间理解领域的统一评估标准。该数据集由香港中文大学和上海交通大学的研究团队联合开发，相关研究成果已发表于arXiv预印本平台。作为VGBench的扩展，SpatialScore通过整合视觉与几何推理任务，解决了当前多模态模型中空间认知能力评估碎片化的问题。其创新性地构建了包含复杂空间关系的标准化测试集，为比较不同模型的几何推理性能提供了基准平台，对计算机视觉与自然语言处理的交叉领域发展具有重要推动作用。

当前挑战

在解决多模态空间理解评估的核心问题上，SpatialScore面临三大挑战：如何设计跨模态任务以全面衡量模型的空间推理能力，如何建立兼顾复杂性与公平性的评估指标，以及如何消除不同模态特征表征带来的评估偏差。数据集构建过程中，研究人员需攻克空间关系标注的语义一致性难题，解决真实场景与抽象几何概念的平衡问题，同时处理大规模多模态数据对齐的技术瓶颈。这些挑战使得数据集的标注质量控制和评估体系设计成为关键难点。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，SpatialScore数据集为研究者提供了一个统一的评估框架，专门用于衡量模型在空间理解任务中的表现。通过结合视觉与语言模态，该数据集能够全面测试模型在空间关系推理、物体定位以及场景理解等方面的能力。其经典使用场景包括多模态模型的基准测试与性能优化，特别是在需要高精度空间理解的智能体系统中。

解决学术问题

SpatialScore解决了多模态空间理解领域缺乏标准化评估工具的学术难题。传统方法往往依赖于分散且不一致的评估指标，难以全面衡量模型的综合性能。该数据集通过整合VGBench和SpatialScore两大基准，为研究者提供了统一的评估标准，显著提升了模型对比的可靠性与可重复性，推动了多模态空间理解研究的规范化发展。

实际应用

在实际应用中，SpatialScore数据集为智能导航系统、增强现实（AR）交互以及机器人环境感知等场景提供了关键技术支持。例如，在自动驾驶领域，该数据集可以帮助优化车辆对复杂道路场景的空间理解能力；在AR应用中，则能提升虚拟物体与现实环境的精准对齐效果，为用户带来更自然的交互体验。

数据集最近研究