ViewSpatial-Bench
收藏arXiv2025-05-28 更新2025-05-29 收录
下载链接:
https://zju-real.github.io/ViewSpatial-Page
下载链接
链接失效反馈官方服务:
资源简介:
ViewSpatial-Bench是一个针对多视角空间定位识别的综合基准,包含超过5700个精心挑选的样本和五种任务类型,用于评估视觉语言模型(VLMs)在3D环境中的空间定位能力。数据集包括从相机和人两个视角出发的任务,涵盖了物体相对方向识别、物体视角方向识别、场景模拟相对方向识别等。数据集来源于ScanNet和MS-CoCo的验证集,通过自动化的3D标注流程生成精确的方向标签,为VLMs的训练提供了丰富的空间关系数据。该数据集旨在解决当前VLMs在跨视角空间理解任务中的局限性,通过建模3D空间关系来增强VLMs的空间理解能力。
ViewSpatial-Bench is a comprehensive benchmark for multi-view spatial localization and recognition. It contains over 5,700 carefully curated samples and five task types, designed to evaluate the spatial localization capabilities of Vision-Language Models (VLMs) in 3D environments. The dataset includes tasks from both camera and human perspectives, covering relative object orientation recognition, object viewpoint direction recognition, simulated scene relative orientation recognition, and other related tasks. Derived from the validation splits of ScanNet and MS-COCO, the dataset generates precise orientation labels through an automated 3D annotation pipeline, providing rich spatial relationship data for the training of VLMs. This benchmark aims to address the current limitations of VLMs in cross-view spatial understanding tasks, and enhance the spatial comprehension ability of VLMs by modeling 3D spatial relationships.
提供机构:
浙江大学
创建时间:
2025-05-28
原始信息汇总
ViewSpatial-Bench 数据集概述
基本信息
- 数据集名称: ViewSpatial-Bench
- 研究领域: 视觉-语言模型(VLMs)的多视角空间定位能力评估
- 作者: Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang
- 机构: 浙江大学, 电子科技大学, 香港中文大学
- 状态: 预印本,正在评审中
- 相关资源: 论文 | 代码 | 🤗 数据集
数据集简介
ViewSpatial-Bench 是首个专注于评估视觉-语言模型在多视角空间定位任务中表现的综合性基准测试。该数据集通过自动化的3D方向标注流程生成,包含精确的方向标签,支持五种不同的任务类型,涵盖相机中心视角和人类中心视角。
任务类型
-
相机视角任务:
- Cam-Rel. Dir.: 从图像中直接确定物体之间的空间关系。
- Cam-Obj. Oir.: 从自我中心视角识别个体相对于相机的注视方向。
-
人类视角任务:
- Per-Rel. Dir.: 从图像中角色的视角确定其他物体的空间关系。
- Per-Obj. Oir.: 从图像中角色的位置确定其注视方向。
- Per-Sce. Sim.: 在连续帧中模拟自己在空间场景中的位置,确定其他物体的相对位置。
数据集特点
- 多样性: 包含约43K个多样化的空间关系样本。
- 自动化标注: 利用ScanNet和MS-COCO数据自动生成空间标注。
- 多视角支持: 同时支持相机视角和人类视角的空间推理任务。
性能评估
- 基线模型: 包括Qwen2.5-VL (3B)、GPT-4o和Gemini-2.0-Flash等。
- 改进模型: Multi-View Spatial Model (MVSM) 通过多视角微调策略,在Qwen2.5-VL (3B)上实现了46.24%的整体性能提升。
示例问题
- Per-Sce. Sim.: "站在桌子旁,凝视枕头,架子应该在哪个方向?"
- Cam-Rel. Dir.: "椅子相对于枕头的位置如何?"
- Cam-Obj. Dir.: "以相机镜头为前方,男人朝哪个方向看?"
- Per-Rel. Dir.: "从穿白衣服的男人的视角看,穿红衣服的男人在哪里?"
- Per-Obj. Dir.: "作为照片中穿黑衣服的男人,你面向哪个方向?"
引用
bibtex @misc{li2025viewspatialbenchevaluatingmultiperspectivespatial, title={ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models}, author={Dingming Li and Hongxing Li and Zixuan Wang and Yuchen Yan and Hang Zhang and Siqi Chen and Guiyang Hou and Shengpei Jiang and Wenqi Zhang and Yongliang Shen and Weiming Lu and Yueting Zhuang}, year={2025}, eprint={2505.21500}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.21500}, }
搜集汇总
数据集介绍

构建方式
ViewSpatial-Bench数据集通过系统化的流程构建,结合了ScanNet和MS-COCO两大数据源的优势。ScanNet提供了丰富的3D场景重建数据,用于支持精确的3D空间推理任务;而MS-COCO则贡献了多样化的图像数据,特别适合人类视角的空间理解任务。数据集构建过程中采用了最大覆盖采样算法确保空间表示的完整性,同时利用自动化的3D空间标注流程生成精确的方向标签。对于复杂的人类视角任务,部分数据通过人工标注以确保质量。整个构建流程包括数据收集、元数据创建、空间关系提取、问答对生成以及多阶段的过滤和人工验证,最终形成了包含5,700个样本的综合性基准。
特点
ViewSpatial-Bench数据集具有多视角平衡性和任务多样性两大核心特点。该数据集在相机视角和人类视角之间保持了近乎均衡的样本分布(48.4% vs 51.6%),确保了评估的公平性。数据集涵盖五种独特的空间定位任务类型,包括物体相对方向识别、物体视角方向识别等,全面评估视觉语言模型在不同观察框架下的空间推理能力。数据集中包含了丰富的空间方位词(如front-left、back-right等)和日常物体(如椅子、桌子、人等),这些元素在真实世界的空间交互场景中具有高度代表性。特别值得注意的是,数据集通过3D空间坐标和视角转换计算,提供了精确的多视角空间关系标注,为模型训练提供了可靠的监督信号。
使用方法
ViewSpatial-Bench数据集主要用于评估和提升视觉语言模型的多视角空间定位能力。研究者可以通过零样本评估方式,直接测试模型在五种空间任务上的表现,使用特定的提示模板确保评估的一致性。对于模型训练,数据集支持监督微调策略,特别建议冻结视觉编码器而仅训练语言模型部分以获得最佳效果。在具体应用中,该数据集可帮助诊断模型在视角转换任务中的薄弱环节,例如通过比较相机视角与人类视角任务的性能差异。此外,数据集的自动化标注流程也可迁移用于生成额外的训练数据,研究者可参考论文中的算法1和算法2实现类似的空间关系提取。对于实际部署,建议结合VSI-App等应用数据集进行跨领域测试,以验证模型的泛化能力。
背景与挑战
背景概述
ViewSpatial-Bench是由浙江大学等机构的研究团队于2025年提出的首个专注于多视角空间定位评估的基准数据集。该数据集旨在解决视觉语言模型(VLMs)在跨视角空间推理任务中的关键局限性,特别是模型在以自我为中心的视角推理表现良好,但在处理以他人为中心的视角时表现欠佳的问题。数据集包含来自ScanNet和MS-CoCo验证集的5,700个样本,涵盖五种不同的空间定位任务类型,并采用自动化的3D标注流程生成精确的方向标签。ViewSpatial-Bench的提出为具身AI系统的空间智能评估建立了重要基准,通过在该数据集上的微调,模型在多视角空间理解任务上的性能可提升46.24%。
当前挑战
ViewSpatial-Bench面临的主要挑战包括:1) 领域问题挑战:视觉语言模型在跨视角空间理解任务中存在显著性能差距,特别是在从人类视角进行推理时准确率明显下降;2) 构建过程挑战:人类视角相对方向任务的标注复杂度高,需要处理复杂的人类空间坐标和环境上下文,导致难以实现全自动化标注。此外,数据集的环境覆盖存在局限,相机视角相对方向任务仅使用ScanNet的室内环境,可能限制其在户外场景的泛化能力。数据集还缺乏对动态空间推理场景的评估,无法充分反映实际应用中物体或观察者移动的情况。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,ViewSpatial-Bench作为首个多视角空间定位基准测试工具,其经典应用场景聚焦于评估视觉语言模型(VLMs)在三维环境中的跨视角空间推理能力。该数据集通过5700个经过精心设计的样本,系统性地测试模型在相机视角(如物体相对方向识别)和人物视角(如场景模拟相对方向识别)下的空间认知表现,为研究多模态智能体的空间感知缺陷提供了标准化测试平台。
解决学术问题
该数据集有效解决了视觉语言模型在跨视角空间推理中的核心学术问题:传统VLMs在自我中心视角下表现尚可,但在处理需要转换参照系的他者视角任务时准确率显著下降(平均差距达46.24%)。通过引入自动化三维标注流程生成的方向标签,ViewSpatial-Bench首次量化了模型在深度、遮挡和相机位姿等复杂三维因素影响下的空间理解局限,为构建具有人类级视角转换能力的多模态系统提供了关键评估框架。
衍生相关工作
基于ViewSpatial-Bench的评估范式,学界已衍生出多个创新研究方向。Zhao等人提出的ImagineNav通过场景想象增强导航模型的视角转换能力;Chen团队开发的SpatialVLM引入显式三维表征来提升空间推理性能;Song等学者构建的RoboSpatial则专注于机器人操作场景下的空间理解。这些工作共同推动了《How to Enable LLM with 3D Capacity?》等系统性综述所描述的跨模态空间智能研究浪潮。
以上内容由遇见数据集搜集并总结生成



