five

SpatialScore

收藏
github2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/haoningwu3639/SpatialScore
下载链接
链接失效反馈
官方服务:
资源简介:
SpatialScore是一个用于多模态空间理解的统一评估基准,包括VGBench和SpatialScore两个部分。

SpatialScore serves as a unified evaluation benchmark for multimodal spatial understanding, encompassing both VGBench and SpatialScore components.
创建时间:
2025-05-20
原始信息汇总

SpatialScore数据集概述

数据集基本信息

  • 名称: SpatialScore
  • 类型: 多模态空间理解评估基准
  • 包含子集: VGBench和SpatialScore
  • 状态: 持续更新中(SpatialScore-Hard待发布)

核心功能

  • 提供统一的多模态空间理解评估框架
  • 支持Qwen2.5VL和InternVL系列模型的评估
  • 包含SpatialAgent专家工具系统(开发中)

数据获取

  • 主下载地址: Huggingface数据集仓库
  • 备用下载方式: 使用hf-mirror镜像
  • 下载命令: bash huggingface-cli download --resume-download --repo-type dataset haoningwu/SpatialScore --local-dir ./ --local-dir-use-symlinks False unzip SpatialScore.zip

评估方法

bash

Qwen2.5VL评估

CUDA_VISIBLE_DEVICES=0,1 python test_qwen.py --model_name qwen2_5vl-7b --model_path ./huggingface/Qwen2.5-VL-7B-Instruct --dataset_json_path ./dataset/SpatialScore.json --dataset_name all --output_dir ./eval_results

InternVL评估

CUDA_VISIBLE_DEVICES=0,1 python test_qwen.py --model_name internvl3-8b --model_path ./huggingface/InternVL3-8B --dataset_json_path ./dataset/SpatialScore.json --dataset_name all --output_dir ./eval_results

相关资源

开发计划

  • [ ] SpatialScore-Hard数据集发布
  • [ ] 数据构建代码开源
  • [ ] 全模型统一评估脚本
  • [ ] SpatialAgent完整推理代码

引用格式

bibtex @article{wu2025spatialscore, author = {Wu, Haoning and Huang, Xiao and Chen, Yaohui and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, title = {SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding}, journal = {arXiv preprint arXiv:2505.17012}, year = {2025}, }

系统要求

  • Python ≥ 3.10
  • PyTorch ≥ 2.5.1
  • accelerate == 1.5.2
  • triton == 3.2.0
  • transformers == 4.51.3

联系方式

  • 邮箱: haoningwu3639@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
在空间理解评估领域,SpatialScore数据集的构建采用了多模态融合的先进理念。研究团队通过精心设计的评估框架,整合了视觉与语言模态的数据样本,构建了包含VGBench和SpatialScore两个子集的综合性基准测试。数据集通过严格的标注流程和专家验证,确保了样本的质量和多样性,为空间理解能力的评估提供了可靠的基础。
使用方法
使用该数据集时,研究人员可通过Huggingface平台直接下载完整数据集。评估过程支持主流模型架构,特别是针对Qwen2.5VL和InternVL系列模型提供了专门的测试脚本。用户只需配置好Python环境,按照提供的命令行参数执行评估,即可获得模型在空间理解任务上的详细性能指标。数据集还预留了未来扩展的接口,将支持更多模型的统一评估。
背景与挑战
背景概述
SpatialScore数据集由Haoning Wu等人于2025年提出,旨在推动多模态空间理解领域的统一评估标准。该数据集由香港中文大学和上海交通大学的研究团队联合开发,相关研究成果已发表于arXiv预印本平台。作为VGBench的扩展,SpatialScore通过整合视觉与几何推理任务,解决了当前多模态模型中空间认知能力评估碎片化的问题。其创新性地构建了包含复杂空间关系的标准化测试集,为比较不同模型的几何推理性能提供了基准平台,对计算机视觉与自然语言处理的交叉领域发展具有重要推动作用。
当前挑战
在解决多模态空间理解评估的核心问题上,SpatialScore面临三大挑战:如何设计跨模态任务以全面衡量模型的空间推理能力,如何建立兼顾复杂性与公平性的评估指标,以及如何消除不同模态特征表征带来的评估偏差。数据集构建过程中,研究人员需攻克空间关系标注的语义一致性难题,解决真实场景与抽象几何概念的平衡问题,同时处理大规模多模态数据对齐的技术瓶颈。这些挑战使得数据集的标注质量控制和评估体系设计成为关键难点。
常用场景
经典使用场景
在计算机视觉与多模态学习领域,SpatialScore数据集为研究者提供了一个统一的评估框架,专门用于衡量模型在空间理解任务中的表现。通过结合视觉与语言模态,该数据集能够全面测试模型在空间关系推理、物体定位以及场景理解等方面的能力。其经典使用场景包括多模态模型的基准测试与性能优化,特别是在需要高精度空间理解的智能体系统中。
解决学术问题
SpatialScore解决了多模态空间理解领域缺乏标准化评估工具的学术难题。传统方法往往依赖于分散且不一致的评估指标,难以全面衡量模型的综合性能。该数据集通过整合VGBench和SpatialScore两大基准,为研究者提供了统一的评估标准,显著提升了模型对比的可靠性与可重复性,推动了多模态空间理解研究的规范化发展。
实际应用
在实际应用中,SpatialScore数据集为智能导航系统、增强现实(AR)交互以及机器人环境感知等场景提供了关键技术支持。例如,在自动驾驶领域,该数据集可以帮助优化车辆对复杂道路场景的空间理解能力;在AR应用中,则能提升虚拟物体与现实环境的精准对齐效果,为用户带来更自然的交互体验。
数据集最近研究
最新研究方向
在计算机视觉与多模态理解领域,SpatialScore数据集的推出标志着空间认知评估体系的重要突破。该数据集通过构建VGBench和SpatialScore双基准测试框架,为Qwen2.5VL、InternVL等主流视觉语言模型提供了统一的空间关系理解评估标准。当前研究聚焦于三维空间推理、跨模态对齐等核心问题,特别是在自动驾驶场景理解、增强现实交互等前沿应用中展现出重要价值。最新进展体现在开发中的SpatialAgent智能体系统,其通过专家工具集成实现了空间认知能力的可解释性提升,相关技术已被应用于机器人导航和地理信息系统等热点领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作