five

ViewSpatial-Bench

收藏
github2025-05-24 更新2025-05-26 收录
下载链接:
https://github.com/ZJU-REAL/ViewSpatial-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
ViewSpatial-Bench是一个全面的基准测试数据集,包含来自ScanNet和MS-COCO验证集的1,000多个3D场景中的超过5,700个问答对。该数据集用于评估视觉语言模型在多视角空间定位中的能力,特别是测试自我中心(相机)和异中心(人类主体)视角下的五种不同任务类型。

ViewSpatial-Bench is a comprehensive benchmark dataset containing over 5,700 question-answer pairs from more than 1,000 3D scenes, sourced from ScanNet and the MS-COCO validation set. The dataset is designed to evaluate the capabilities of visual language models in multi-view spatial localization, particularly testing five distinct task types from both egocentric (camera) and exocentric (human) perspectives.
创建时间:
2025-05-23
原始信息汇总

ViewSpatial-Bench 数据集概述

数据集简介

  • 名称: ViewSpatial-Bench
  • 目的: 评估视觉语言模型(VLMs)在多视角空间定位任务中的表现
  • 特点: 包含相机中心和人中心两种视角的空间定位任务

数据集构成

  • 数据量: 超过5,700个问答对
  • 场景来源: 1,000+个3D场景,来自ScanNet和MS-COCO验证集
  • 任务类型: 5种不同的空间定位任务类型

关键特性

  • 多视角评估: 同时测试自我中心(相机)和异我中心(人类主体)视角
  • 基准测试: 揭示了当前VLMs在多视角空间理解方面的挑战

数据集结构

plaintext ViewSpatial-Bench ├── data_process # 原始数据集处理脚本 ├── eval # 存储ViewSpatial-Bench原始数据集 ├── ViewSpatial-Bench # 存储源图像(可从Huggingface下载) ├── README.md ├── evaluate.py # 多VLM评估脚本 └── requirements.txt # 评估依赖项

评估方法

  1. 通过HuggingFace datasets库: py from datasets import load_dataset ds = load_dataset("lidingm/ViewSpatial-Bench")

  2. 使用开源代码评估: py git clone https://github.com/ZJU-REAL/ViewSpatial-Bench.git cd ViewSpatial-Bench pip install -r requirements.txt python evaluate.py --model_path your_model_path

数据来源

相关模型

  • Multi-View Spatial Model (MVSM): 专为解决VLM中视角依赖的空间推理限制而开发
  • 训练数据: ~43K个多样化的空间关系样本
  • 基础模型: Qwen2.5-VL (3B)
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型(VLMs)多视角空间定位能力评估的背景下,ViewSpatial-Bench通过系统化的数据构建流程实现了创新突破。该数据集基于ScanNet和MS-COCO验证集的1000余个3D场景,采用自动化空间标注技术构建了5700余个问答对。构建过程特别注重双重视角标注策略,同时涵盖自我中心(相机)和异我中心(人类主体)两种空间认知视角,通过五种任务类型的结构化设计确保数据多样性。数据预处理环节整合了Orient Anything等开源工具进行头部朝向计算,形成标准化的空间关系表述模板。
特点
作为多视角空间定位领域的专业评估基准,ViewSpatial-Bench展现出鲜明的技术特征。数据集包含跨视角空间推理所需的双重视角标注体系,其问题类型覆盖相对位置判断、空间关系推理等五大认知维度。特别值得注意的是,该基准揭示了现有VLMs在视角依赖型空间推理中的普遍缺陷,即使GPT-4o等顶尖模型表现也仅略高于随机概率。数据集提供的5700个标注样本均采用统一的空间关系分类标准,确保评估结果的可比性和科学性,为模型空间认知能力的细粒度评估提供了可靠框架。
使用方法
针对视觉语言模型研究者的使用需求,ViewSpatial-Bench提供了灵活多样的评估方案。用户可通过HuggingFace数据集库直接加载标准化数据,亦能基于开源代码库进行本地化评估。评估流程支持自定义模型路径参数,配套的requirements.txt确保依赖环境的一致性。数据集目录采用模块化设计,data_process子目录包含原始数据处理脚本,eval子目录存储基准测试集,这种结构既支持端到端评估也允许部分组件复用。值得注意的是,使用MS-COCO子集时需要额外下载官方标注文件,这种设计在保证数据合规性的同时维持了使用便捷性。
背景与挑战
背景概述
ViewSpatial-Bench是由浙江大学REAL实验室开发的视觉-语言模型(VLMs)多视角空间定位能力评估基准数据集。该数据集创建于2024年,旨在解决当前VLMs在跨视角空间推理方面的局限性。传统VLMs主要基于网络图像-文本对进行训练,缺乏显式的3D空间标注,导致其在相机中心和人本中心等多视角空间理解任务中表现欠佳。ViewSpatial-Bench包含来自ScanNet和MS-COCO验证集的1,000多个3D场景,涵盖5,700余个问答对,为评估VLMs的空间定位能力提供了系统化的测试平台。该数据集通过引入多视角空间任务,推动了三维空间关系表示学习的发展,对增强现实、机器人导航等应用领域具有重要价值。
当前挑战
ViewSpatial-Bench面临的核心挑战体现在两个方面:领域问题层面,当前主流VLMs在跨视角空间推理任务中的准确率仅略高于随机猜测(26.33%),即使GPT-4o等先进模型也难以突破35%的准确率,暴露出视角依赖性空间关系建模这一根本性技术瓶颈;数据集构建层面,需要解决多源3D场景数据(ScanNet与MS-COCO)的空间标注统一性问题,开发自动化空间关系标注流程,并建立兼顾相机视角与人本视角的标准化评估体系。特别在人体朝向计算等细粒度空间属性标注中,需整合Orient Anything等第三方模型,这增加了数据一致性与质量控制难度。
常用场景
经典使用场景
在视觉语言模型(VLMs)的研究领域,ViewSpatial-Bench数据集被广泛应用于评估模型在多视角空间定位任务中的表现。该数据集通过提供来自ScanNet和MS-COCO验证集的1,000多个3D场景和5,700多个问答对,为研究者提供了一个标准化的测试平台。经典使用场景包括模型在自我中心(相机视角)和异我中心(人类视角)的空间推理能力评估,涵盖了五种不同的任务类型,从而全面检验模型的空间理解能力。
衍生相关工作
基于ViewSpatial-Bench数据集,研究者开发了多视角空间模型(MVSM),该模型通过在大规模空间关系样本上进行微调,显著提升了视觉语言模型在多视角空间推理任务中的表现。此外,该数据集还激发了多项关于视角依赖空间理解的研究工作,例如结合头部朝向计算的空间关系建模,以及针对特定任务(如人-物交互)的视角自适应推理方法。这些工作进一步拓展了视觉语言模型在复杂空间场景中的应用潜力。
数据集最近研究
最新研究方向
在视觉语言模型(VLMs)领域,多视角空间定位能力的评估正成为研究热点。ViewSpatial-Bench数据集的推出填补了当前VLMs在跨视角空间推理方面的空白,通过构建包含5700余个问答对的大规模基准测试,系统评估模型在自我中心(相机)和异我中心(人类主体)视角下的空间理解能力。近期研究表明,即便是GPT-4o和Gemini-2.0-Flash等先进模型在该基准上的表现仅略高于随机水平,凸显了多视角空间推理这一核心挑战。为解决该问题,研究者提出的多视角空间模型(MVSM)通过融合ScanNet和MS-COCO的空间标注数据,采用统一的三维空间关系表示方法,显著提升了模型在跨视角任务中的性能表现,为构建具有真实空间认知能力的智能系统提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作