Robo2VLM-1

Name: Robo2VLM-1
Creator: 加利福尼亚大学伯克利分校
Published: 2025-05-21 21:42:52
License: 暂无描述

arXiv2025-05-21 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/keplerccc/Robo2VLM-1

下载链接

链接失效反馈

官方服务：

资源简介：

Robo2VLM-1是一个大规模的视觉问答（VQA）数据集，包含684,710个问题，涵盖463个独特的场景和3,396个机器人操作任务，来自176,000个真实机器人轨迹。该数据集旨在通过丰富的、真实的、多模态的机器人轨迹数据来增强和评估视觉语言模型（VLMs）的能力。Robo2VLM框架从人类远程操作的机器人轨迹中导出地面实况，并生成代表性的VQA查询，以评估和提高VLM在空间和交互推理方面的能力。

Robo2VLM-1 is a large-scale visual question answering (VQA) dataset containing 684,710 questions, covering 463 unique scenarios and 3,396 robotic manipulation tasks, derived from 176,000 real robotic trajectories. This dataset aims to enhance and evaluate the capabilities of visual language models (VLMs) using rich, realistic, multimodal robotic trajectory data. The Robo2VLM framework derives ground truth from human-teleoperated robotic trajectories and generates representative VQA queries to assess and improve VLMs’ spatial and interactive reasoning abilities.

提供机构：

加利福尼亚大学伯克利分校

创建时间：

2025-05-21

原始信息汇总

Robo2VLM-1 数据集概述

数据集基本信息

名称: Robo2VLM-1
类型: 视觉问答（VQA）数据集
领域: 机器人操作与视觉语言模型（VLM）
论文链接: http://arxiv.org/abs/2505.15517

数据集结构

特征

id: 字符串类型，唯一标识符
question: 字符串类型，问题文本
choices: 字符串类型，选择题选项
correct_answer: 整型（int64），正确答案索引
image: 图像类型，关联的视觉数据

数据划分

训练集 (train)
- 样本数量: 678,034
- 数据大小: 130,688,805,359.58 字节
测试集 (test)
- 样本数量: 6,676
- 数据大小: 1,290,885,818.416 字节

下载与存储

下载大小: 106,501,046,765 字节
数据集总大小: 131,979,691,177.996 字节

数据集背景与用途

目的: 通过大规模真实机器人操作数据增强和评估视觉语言模型（VLMs）
生成方法: 基于机器人轨迹数据，利用非视觉传感器信息（如末端执行器位姿、夹持器开合度、力传感）生成视觉问答数据
覆盖范围:
- 场景数量: 463
- 机器人操作任务: 3,396
- 真实机器人轨迹: 176k
- 总问题数量: 684,710

引用信息

bibtex @misc{chen2025robo2vlmvisualquestionanswering, title={Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets}, author={Kaiyuan Chen and Shuangyu Xie and Zehan Ma and Ken Goldberg}, year={2025}, eprint={2505.15517}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2505.15517}, }

搜集汇总

数据集介绍

构建方式

Robo2VLM-1数据集通过整合176,000条真实机器人操作轨迹构建而成，这些轨迹来源于Open X-Embodiment数据集中的13个子集。构建过程中，利用多模态传感器数据（包括RGB图像、立体深度图像、末端执行器位姿、夹持器状态及力-扭矩读数）进行时间同步，并通过语义分割和操作阶段分类技术识别关键帧。基于机器人操作领域知识，设计了涵盖空间关系、目标条件和交互理解三大类别的视觉问答模板，最终生成了684,710个高质量的多选题样本。

特点

该数据集具有显著的跨模态特性，将视觉数据与本体感知信息深度融合，覆盖463个真实场景和3,396种操作任务。其问题设计聚焦机器人操作核心能力，包含空间可达性判断、三维相对方向推理、多视角对应关系等11个专项评估类别。独特的相位感知机制将操作过程划分为接近、稳定、接触等六个阶段，确保问题与具体操作情境的高度契合。数据样本经过严格筛选，错误答案与正确答案具有显著区分度，并设置10%的'以上都不是'选项以检测模型幻觉。

使用方法

研究者可通过Hugging Face平台获取数据集，支持零样本评估和思维链提示两种测试模式。用于模型微调时，建议保持视觉层参数固定，专注语言层适配。评估时需注意不同类别间的性能差异，空间关系类问题对深度信息敏感，而交互阶段预测则需要复杂的时序推理能力。基准测试表明，Qwen系列模型在该数据集上表现优异，经过微调的LLaVA模型在物体状态识别等任务中可获得50%的准确率提升。

背景与挑战

背景概述

Robo2VLM-1数据集由加州大学伯克利分校的研究团队于2025年推出，旨在通过真实机器人操作轨迹增强视觉语言模型（VLMs）的空间推理能力。该数据集基于Open X-Embodiment项目中176k条真实机器人轨迹，生成了684,710个视觉问答（VQA）样本，覆盖463个场景和3,396项操作任务。其核心创新在于利用机器人本体感知数据（如末端执行器位姿、夹爪状态）自动生成具有空间和交互推理特性的问题，避免了传统人工标注的高成本。该工作首次实现了机器人操作数据与VLMs能力的双向增强，为具身智能研究提供了重要基准。

当前挑战

Robo2VLM-1面临双重挑战：在领域问题层面，需解决VLMs对细粒度空间关系（如三维相对方向判断）和物理交互（如抓取稳定性评估）理解不足的瓶颈，现有模型在相关任务上与人类表现仍存在30%以上准确率差距；在构建过程中，多模态传感器数据的时间同步精度、跨机构数据格式标准化，以及从低层次本体感知数据（如力扭矩读数）推导高层次语义标签（如任务完成状态）的可靠性，均为关键技术难点。此外，真实场景中的视觉噪声和动态遮挡导致约5%的轨迹数据无法生成有效问答对。

常用场景

经典使用场景

Robo2VLM-1数据集在视觉语言模型（VLMs）的研究中扮演着关键角色，特别是在机器人操作任务的视觉问答（VQA）场景中。通过结合多模态机器人轨迹数据，该数据集能够生成具有丰富空间和交互推理能力的VQA样本，从而为VLMs的训练和评估提供了高质量的真实世界数据。

衍生相关工作

Robo2VLM-1数据集衍生了一系列经典研究工作，包括OpenVLA、Gemini Robotics和Hi Robot等。这些工作利用该数据集的多模态特性，进一步推动了视觉语言动作模型（VLAMs）的发展，并在长时程任务推理和复杂场景理解方面取得了显著进展。

数据集最近研究