ViewSpatial-Bench

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/lidingm/ViewSpatial-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ViewSpatial-Bench是一个专为评估视觉语言模型(VLMs)在五个不同任务类型中多视角空间方向识别能力的全面基准。该基准测试VLMs在不同视角下进行空间推理的能力，既包括以自我为中心的（相机）视角，也包括以他人为中心的（人类主体）视角。该基准解决了当前VLMs的一个关键局限性：虽然它们在以自我为中心的空间推理（从相机视角）方面表现出色，但在需要采用另一个实体的空间参考框架时，它们在以他人为中心的视角上难以泛化。这种被称为“视角采择”的能力对于身体交互、空间导航和多智能体协作至关重要。

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

在空间推理研究领域，ViewSpatial-Bench的构建融合了ScanNet与MS-COCO验证集的千余三维场景，通过系统化标注流程生成了涵盖五种任务类型的5700余组问答对。该数据集采用双重视角框架，分别针对以摄像机为中心的自我中心视角和以人物为主体的他者中心视角设计问题，每个样本均包含图像路径、问题类型、多选选项及标准答案的结构化字段，确保了空间定位能力评估的全面性与精确性。

特点

该数据集的核心特征体现在多视角空间推理任务的系统性划分，既包含相对方向判断等基础空间关系理解，又涉及物体朝向推断与场景相似性比较等复杂认知任务。其问题设计巧妙突破了传统视觉语言模型在视角转换方面的局限，通过对比自我与他者视角的应答表现，清晰揭示了模型在具身交互场景中的认知边界，为空间智能研究提供了多维度的评估标尺。

使用方法

研究者可通过HuggingFace平台直接加载数据集进行模型测试，亦可结合官方开源代码库实现自动化评估。使用流程涵盖依赖环境配置、模型路径指定与参数调整等环节，评估脚本将自动输出模型在相机视角与人本视角任务中的细分成绩及综合表现。这种模块化设计既支持快速验证基线模型，又能满足定制化评估需求，为空间推理研究提供标准化实验范式。

背景与挑战

背景概述

视觉语言模型在空间推理领域的发展催生了ViewSpatial-Bench这一基准数据集，由浙江大学研究团队于2025年构建。该数据集聚焦于多视角空间定位能力评估，整合了ScanNet与MS-COCO验证集中的千余个三维场景，生成超过5700组问答对。其核心研究在于解决视觉语言模型在视角转换中的认知局限，即从自我中心视角转向他者中心视角的跨参照系推理能力，这一突破对具身智能与多智能体协作具有重要推动意义。

当前挑战

该数据集针对视觉语言模型在空间定位任务中存在的视角转换障碍设计挑战，具体涵盖相对方向判断、物体朝向推理、场景相似性辨识等五类任务。构建过程中需克服三维场景与二维图像的对齐复杂性，确保不同视角间空间关系标注的一致性，同时平衡来自异构数据源的场景覆盖广度与标注质量，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在空间认知智能研究领域，ViewSpatial-Bench作为多视角空间定位评估基准，其经典应用场景聚焦于测试视觉语言模型在复杂三维环境中的跨视角推理能力。该数据集通过融合ScanNet和MS-COCO的千余场景，构建了包含相对方向判断、物体朝向推理等五大任务类型的评估体系，为模型在具身交互场景中的空间认知能力提供标准化度量框架。

实际应用

在现实应用层面，ViewSpatial-Bench支撑的服务机器人导航系统能够准确解析用户以自然语言描述的空间指令。例如在智能仓储场景中，机器人可依据“请取走摄像头左侧的箱子”这类涉及视角转换的指令，精准定位目标物体。这种能力进一步延伸至虚拟现实交互、自动驾驶系统的路况认知等需要多视角空间协调的工业场景。

衍生相关工作

基于该数据集衍生的经典研究包括多模态对齐网络的架构创新，如InternVL2.5等模型通过引入视角感知模块显著提升跨视角任务性能。相关工作还催生了空间推理链（Spatial Chain-of-Thought）等解释性方法，这些研究不仅深化了对视觉语言模型认知机制的理解，更为构建具身智能系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集