ViewSpatial-Bench

github2025-05-24 更新2025-05-26 收录

下载链接：

https://github.com/ZJU-REAL/ViewSpatial-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ViewSpatial-Bench是一个全面的基准测试数据集，包含来自ScanNet和MS-COCO验证集的1,000多个3D场景中的超过5,700个问答对。该数据集用于评估视觉语言模型在多视角空间定位中的能力，特别是测试自我中心（相机）和异中心（人类主体）视角下的五种不同任务类型。

ViewSpatial-Bench is a comprehensive benchmark dataset containing over 5,700 question-answer pairs from more than 1,000 3D scenes, sourced from ScanNet and the MS-COCO validation set. The dataset is designed to evaluate the capabilities of visual language models in multi-view spatial localization, particularly testing five distinct task types from both egocentric (camera) and exocentric (human) perspectives.

创建时间：

2025-05-23

原始信息汇总

ViewSpatial-Bench 数据集概述

数据集简介

名称: ViewSpatial-Bench
目的: 评估视觉语言模型(VLMs)在多视角空间定位任务中的表现
特点: 包含相机中心和人中心两种视角的空间定位任务

数据集构成

数据量: 超过5,700个问答对
场景来源: 1,000+个3D场景，来自ScanNet和MS-COCO验证集
任务类型: 5种不同的空间定位任务类型

关键特性

多视角评估: 同时测试自我中心(相机)和异我中心(人类主体)视角
基准测试: 揭示了当前VLMs在多视角空间理解方面的挑战

数据集结构

plaintext ViewSpatial-Bench ├── data_process # 原始数据集处理脚本 ├── eval # 存储ViewSpatial-Bench原始数据集 ├── ViewSpatial-Bench # 存储源图像(可从Huggingface下载) ├── README.md ├── evaluate.py # 多VLM评估脚本 └── requirements.txt # 评估依赖项

评估方法

通过HuggingFace datasets库: py from datasets import load_dataset ds = load_dataset("lidingm/ViewSpatial-Bench")
使用开源代码评估: py git clone https://github.com/ZJU-REAL/ViewSpatial-Bench.git cd ViewSpatial-Bench pip install -r requirements.txt python evaluate.py --model_path your_model_path

数据来源

基础3D场景数据: ScanNet
视觉内容: MS-COCO
头部方向计算: Orient Anything

相关模型

Multi-View Spatial Model (MVSM): 专为解决VLM中视角依赖的空间推理限制而开发
训练数据: ~43K个多样化的空间关系样本
基础模型: Qwen2.5-VL (3B)

搜集汇总

数据集介绍

构建方式

在视觉语言模型(VLMs)多视角空间定位能力评估的背景下，ViewSpatial-Bench通过系统化的数据构建流程实现了创新突破。该数据集基于ScanNet和MS-COCO验证集的1000余个3D场景，采用自动化空间标注技术构建了5700余个问答对。构建过程特别注重双重视角标注策略，同时涵盖自我中心（相机）和异我中心（人类主体）两种空间认知视角，通过五种任务类型的结构化设计确保数据多样性。数据预处理环节整合了Orient Anything等开源工具进行头部朝向计算，形成标准化的空间关系表述模板。

特点

作为多视角空间定位领域的专业评估基准，ViewSpatial-Bench展现出鲜明的技术特征。数据集包含跨视角空间推理所需的双重视角标注体系，其问题类型覆盖相对位置判断、空间关系推理等五大认知维度。特别值得注意的是，该基准揭示了现有VLMs在视角依赖型空间推理中的普遍缺陷，即使GPT-4o等顶尖模型表现也仅略高于随机概率。数据集提供的5700个标注样本均采用统一的空间关系分类标准，确保评估结果的可比性和科学性，为模型空间认知能力的细粒度评估提供了可靠框架。

使用方法

针对视觉语言模型研究者的使用需求，ViewSpatial-Bench提供了灵活多样的评估方案。用户可通过HuggingFace数据集库直接加载标准化数据，亦能基于开源代码库进行本地化评估。评估流程支持自定义模型路径参数，配套的requirements.txt确保依赖环境的一致性。数据集目录采用模块化设计，data_process子目录包含原始数据处理脚本，eval子目录存储基准测试集，这种结构既支持端到端评估也允许部分组件复用。值得注意的是，使用MS-COCO子集时需要额外下载官方标注文件，这种设计在保证数据合规性的同时维持了使用便捷性。

背景与挑战

背景概述

ViewSpatial-Bench是由浙江大学REAL实验室开发的视觉-语言模型（VLMs）多视角空间定位能力评估基准数据集。该数据集创建于2024年，旨在解决当前VLMs在跨视角空间推理方面的局限性。传统VLMs主要基于网络图像-文本对进行训练，缺乏显式的3D空间标注，导致其在相机中心和人本中心等多视角空间理解任务中表现欠佳。ViewSpatial-Bench包含来自ScanNet和MS-COCO验证集的1,000多个3D场景，涵盖5,700余个问答对，为评估VLMs的空间定位能力提供了系统化的测试平台。该数据集通过引入多视角空间任务，推动了三维空间关系表示学习的发展，对增强现实、机器人导航等应用领域具有重要价值。

当前挑战

ViewSpatial-Bench面临的核心挑战体现在两个方面：领域问题层面，当前主流VLMs在跨视角空间推理任务中的准确率仅略高于随机猜测（26.33%），即使GPT-4o等先进模型也难以突破35%的准确率，暴露出视角依赖性空间关系建模这一根本性技术瓶颈；数据集构建层面，需要解决多源3D场景数据（ScanNet与MS-COCO）的空间标注统一性问题，开发自动化空间关系标注流程，并建立兼顾相机视角与人本视角的标准化评估体系。特别在人体朝向计算等细粒度空间属性标注中，需整合Orient Anything等第三方模型，这增加了数据一致性与质量控制难度。

常用场景

经典使用场景

在视觉语言模型（VLMs）的研究领域，ViewSpatial-Bench数据集被广泛应用于评估模型在多视角空间定位任务中的表现。该数据集通过提供来自ScanNet和MS-COCO验证集的1,000多个3D场景和5,700多个问答对，为研究者提供了一个标准化的测试平台。经典使用场景包括模型在自我中心（相机视角）和异我中心（人类视角）的空间推理能力评估，涵盖了五种不同的任务类型，从而全面检验模型的空间理解能力。

衍生相关工作

基于ViewSpatial-Bench数据集，研究者开发了多视角空间模型（MVSM），该模型通过在大规模空间关系样本上进行微调，显著提升了视觉语言模型在多视角空间推理任务中的表现。此外，该数据集还激发了多项关于视角依赖空间理解的研究工作，例如结合头部朝向计算的空间关系建模，以及针对特定任务（如人-物交互）的视角自适应推理方法。这些工作进一步拓展了视觉语言模型在复杂空间场景中的应用潜力。

数据集最近研究