MV-RoboBench

Name: MV-RoboBench
Creator: 清华大学, 北京大学, 复旦大学, 微软亚洲研究院, 香港科技大学, 浙江大学
Published: 2025-10-22 17:20:09
License: 暂无描述

arXiv2025-10-22 更新2025-10-24 收录

下载链接：

https://arxiv.org/abs/2510.19400v1

下载链接

链接失效反馈

官方服务：

资源简介：

MV-RoboBench是一个专门为评估视觉语言模型在机器人操作场景中的多视角空间推理能力而设计的基准数据集。该数据集由1.7k个手动编辑的问答项目组成，跨越八个子任务，分为空间理解和机器人执行两大类。它旨在评估视觉语言模型是否能够有效地整合来自多个摄像头视角的互补信息，以支持机器人决策。该数据集由来自真实机器人演示的同步多摄像头视图构建，涵盖了各种操作任务和环境。它提供了一个系统的评估，以检验视觉语言模型是否能够有效地整合来自多个摄像头视角的互补信息，以支持机器人在现实世界中的决策。

MV-RoboBench is a benchmark dataset specifically designed to evaluate the multi-view spatial reasoning capabilities of vision-language models in robotic manipulation scenarios. This dataset is composed of 1.7k manually curated question-answering items, spanning eight subtasks and categorized into two major categories: spatial understanding and robotic execution. It aims to assess whether vision-language models can effectively integrate complementary information from multiple camera perspectives to support robotic decision-making. The dataset is constructed from synchronized multi-camera views from real robotic demonstrations, covering various manipulation tasks and environments. It provides a systematic evaluation to examine whether vision-language models can effectively integrate complementary information from multiple camera perspectives to support real-world robotic decision-making.

提供机构：

清华大学, 北京大学, 复旦大学, 微软亚洲研究院, 香港科技大学, 浙江大学

创建时间：

2025-10-22

原始信息汇总

数据集概述

基本信息

标题: Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes
arXiv ID: 2510.19400v1
提交日期: 2025年10月22日
学科分类: Computer Vision and Pattern Recognition (cs.CV)
DOI: https://doi.org/10.48550/arXiv.2510.19400

作者列表

Zhiyuan Feng, Zhaolu Kang, Qijie Wang, Zhiying Du, Jiongrui Yan, Shubin Shi, Chengbo Yuan, Huizhi Liang, Yu Deng, Qixiu Li, Rushuai Yang, Arctanx An, Leqi Zheng, Weijie Wang, Shawn Chen, Sicheng Xu, Yaobo Liang, Jiaolong Yang, Baining Guo

研究摘要

本研究针对视觉语言模型在机器人场景中的空间推理能力进行评估，重点关注多视角环境下的表现。目前大多数VLM评估集中于单视角设置，而多摄像头配置在机器人平台中日益普及，能够通过互补视角减轻遮挡和深度模糊问题。

核心贡献

提出MV-RoboBench基准测试，专门评估VLM在机器人操作中的多视角空间推理能力
包含1.7k个手动整理的QA项目，涵盖八个子任务
分为两个主要类别：空间理解和机器人执行

评估结果

评估了包括开源和闭源模型在内的多种现有VLM
测试了结合CoT启发技术的增强版本
结果显示最先进模型的性能远低于人类水平
发现两个关键结论：
- 空间智能与机器人任务执行在多视角机器人场景中呈正相关
- 现有通用单视角空间理解基准的强性能不能可靠转化为机器人空间任务的成功

资源发布

项目与基准测试作为开放资源发布，旨在促进空间基础VLM和VLA的进展，不仅提供数据，还提供多视角具身推理的标准化评估协议。

获取方式

项目地址: 可通过注释中提供的https URL公开获取
论文PDF: https://arxiv.org/pdf/2510.19400v1
HTML版本: https://arxiv.org/html/2510.19400v1
TeX源码: https://arxiv.org/format/2510.19400v1

搜集汇总

数据集介绍

构建方式

在具身智能领域，多视角感知对机器人操作至关重要。MV-RoboBench通过精心设计的三阶段流程构建：首先从AgiWorld和BridgeV2数据集中筛选具有时空分离特性的同步多视角图像对；随后基于八类任务模板由专业标注人员构建五选一问答对，确保每个问题均需真实的多视角推理；最后通过人工循环质量审查机制，剔除语义不一致项并平衡选项分布，最终形成1,708个经过严格验证的评估样本。

特点

该数据集独特之处在于融合了空间认知与机器人执行双重维度。其空间理解任务涵盖跨视角匹配、距离判断等四大子类，要求模型将多视角观测整合为连贯的三维场景表征；机器人执行任务则延伸至动作规划、轨迹选择等实操层面，检验多视角信息在解决遮挡与深度模糊方面的价值。所有任务均基于真实机器人演示场景，且每个样本均配备同步的多摄像头视角，为评估视觉语言模型在具身环境中的空间推理能力提供了标准化测试基准。

使用方法

研究者可通过标准化协议直接加载该基准进行评估。评估时需向模型输入同步的多视角图像及对应的多选问题，模型需输出单一选项字母。该设计支持零样本评估，无需针对特定任务进行提示工程优化。基准提供统一的坐标系统定义与空间关系描述规范，确保跨模型比较的公平性。通过分析模型在空间理解与机器人执行任务上的表现差异，可深入探究多视角推理能力与具身决策之间的关联机制。

背景与挑战

背景概述

MV-RoboBench于2025年由清华大学、北京大学、微软亚洲研究院等机构联合推出，旨在填补视觉语言模型在多视角机器人场景中空间推理能力评估的空白。该数据集聚焦机器人操作环境下的多视角空间感知与行动决策，通过整合真实机器人演示数据构建了1.7千个高质量问答对，涵盖空间理解与机器人执行两大核心范畴。其创新性在于首次将同步多视角输入与具身化机器人任务相结合，为视觉语言模型在三维空间中的几何关系推理与跨视角一致性理解提供了系统化评估基准。

当前挑战

该数据集主要应对机器人操作中多视角空间推理的复杂性挑战：在领域问题层面，需解决因单视角固有的遮挡、深度模糊和视野限制导致的感知不完整性，要求模型融合互补视角信息构建连贯的三维场景表征；在构建过程中，面临多相机数据同步校准、跨视角语义对齐标注的精度控制，以及真实机器人操作场景下动态干扰因素排除等工程难题，需通过人工校验与模板化生成相结合的方式确保数据质量与任务多样性。

常用场景

经典使用场景

在具身智能领域，多视角空间推理是机器人执行复杂操作任务的核心能力。MV-RoboBench通过构建包含1708个多选问答项的标准化测试集，系统评估视觉语言模型在同步多摄像头场景下的空间感知与决策能力。其经典应用场景聚焦于跨视角物体匹配、距离判断、视角识别及三维空间一致性等任务，要求模型整合互补视角信息以构建连贯的三维场景表征，为机器人抓取、避障等操作提供空间认知基础。

解决学术问题

该数据集填补了现有基准测试在机器人多视角推理评估上的空白，解决了单视角评估无法捕捉的深度模糊、遮挡解析等关键问题。通过将空间理解与机器人执行任务耦合，它揭示了视觉语言模型在几何关系建模、跨视角信息融合方面的固有局限，为开发具有显式三维推理能力的多模态模型提供了实证依据，推动了具身人工智能从感知智能向空间认知智能的范式转变。

衍生相关工作

该数据集的发布催生了多模态几何推理模型的创新浪潮。以VGGT为代表的视觉几何变换网络通过显式三维合成增强跨视角对齐能力；MoGe-2等深度估计算法则为模型注入结构化几何先验。同时，基于链式思维提示的推理增强方法在GPT-5、Gemini-2.5等模型中展开探索，推动视觉语言动作模型在窄基线多视角场景下的泛化性能突破，为下一代具身智能系统奠定理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集