RoVI-Book Dataset

github2025-07-13 更新2025-07-14 收录

下载链接：

https://github.com/robotic-visual-instruction/RoVI-Book

下载链接

链接失效反馈

官方服务：

资源简介：

RoVI-Book是一个专注于机器人操作和视觉理解的数据集，用于机器人视觉指令。该数据集包含大量记录机器人操作的序列图像，涵盖单步和多步操作场景。

RoVI-Book is a dataset focused on robot manipulation and visual understanding, developed for robot vision instruction tasks. This dataset contains a large number of sequential images recording robot manipulation operations, covering single-step and multi-step manipulation scenarios.

创建时间：

2025-07-12

原始信息汇总

RoVI-Book数据集概述

基本信息

数据集名称：RoVI-Book Dataset
相关会议：CVPR 2025
官方用途：Robotic Visual Instruction项目的官方数据集

数据集简介

专注于机器人操作和视觉理解
包含大量连续图像，记录机器人操作过程
涵盖单步和多步操作场景

数据集结构

dataset/ ├── dataset_llava.json # LLaVA格式的数据集文件 └── obs/ # 观测数据 ├── pics_multi_step/ # 多步操作图像 │ ├── circle/ # 带圆形标注的图像 │ └── no_circle/ # 无标注图像 ├── pics_one_step/ # 单步操作图像 │ ├── circle/ # 带圆形标注的图像 │ └── no_circle/ # 无标注图像 └── rotation/ # 旋转相关图像 ├── multi_step/ # 多步旋转操作 └── one_step/ # 单步旋转操作

图像类别

多步操作图像：记录完整操作序列
单步操作图像：捕捉单个动作
旋转操作图像：专注于物体翻转和旋转动作

标注信息

circle/：包含带圆形标注的图像
no_circle/：包含无标注图像

数据格式

采用LLaVA格式，存储在dataset_llava.json中
包含以下字段：
- id：唯一标识符
- image：图像路径
- conversations：对话内容（包含人类指令和预期响应）

关键点数据集

提供关键点标注
专为YOLOv8训练设计
用于提取箭头或圆形的关键点

数据集访问

关键点数据集位置：https://huggingface.co/datasets/yanbang/rovibook/tree/main

训练信息

设计用于训练视觉语言模型
实验中使用LLaVA-1.5进行微调
训练方法遵循LLaVA的视觉指令调优方法

搜集汇总

数据集介绍

构建方式

RoVI-Book数据集基于Open-X Embodiments数据集进行适配构建，专注于机器人视觉指令领域。该数据集通过系统化采集机器人操作过程中的序列图像，构建了包含单步和多步操作场景的丰富视觉资料库。数据组织结构采用层级目录设计，按照操作类型（单步/多步）和注释类型（带圆圈标注/无标注）进行分类存储，并通过JSON文件实现图像路径与指令对话的结构化关联。

特点

该数据集的核心特点在于其多模态任务设计，同时涵盖视觉指令理解和关键点检测两大功能模块。数据集提供三种专业图像类别：完整操作序列的多步图像、独立动作捕捉的单步图像以及专注于物体翻转旋转的特写图像。特别值得注意的是，数据集采用LLaVA格式进行标注，将机器人操作指令与视觉内容紧密结合，并额外提供YOLOv8关键点检测所需的标注数据，为机器人操作中的箭头和圆圈关键点识别提供专门支持。

使用方法

使用该数据集需预先部署LLaVA视觉语言模型框架，通过加载数据集JSON文件实现端到端的视觉指令调优。具体流程包括：配置LLaVA运行环境，加载预训练模型权重，导入格式化的数据集文件进行微调训练。对于关键点检测任务，需基于YOLOv8框架构建训练管道，利用数据集提供的关键点标注信息进行模型优化。数据集已托管于Hugging Face平台，支持通过标准接口实现快速访问和集成。

背景与挑战

背景概述

RoVI-Book数据集由Robotic Visual Instruction团队于2025年CVPR会议上正式发布，旨在推动机器人视觉指令领域的研究。该数据集专注于机器人操作与视觉理解，包含大量记录机器人单步和多步操作序列的图像数据，并适配LLaVA格式进行视觉语言模型训练。其核心研究问题在于如何通过视觉指令引导机器人完成复杂操作任务，为机器人视觉任务跟随提供了重要基准。作为Open-X Embodiments数据集的衍生版本，RoVI-Book通过引入带标注的旋转操作和关键点检测数据，显著提升了机器人动作规划的细粒度理解能力。

当前挑战

在领域问题层面，该数据集需解决机器人视觉指令中动作-视觉对齐的挑战，包括多步骤操作间的时序依赖性建模、旋转动作的3D空间表征等具体难题。数据构建过程中面临双重挑战：其一是操作序列图像采集需保持环境变量可控性，其二是复合标注体系的构建需协调视觉标注（圆圈标记）与动作语义标注（LLaVA格式）的映射关系。此外，关键点检测模块要求精确捕捉箭头或圆形结构的空间特征，这对标注质量和模型训练提出了更高要求。

常用场景

经典使用场景

在机器人视觉指令领域，RoVI-Book数据集为研究者提供了一个丰富的视觉-语言交互平台。该数据集通过捕捉单步和多步操作序列，为视觉语言模型的微调提供了标准化实验环境。其多模态特性特别适合于研究机器人操作过程中的视觉理解与自然语言指令的映射关系，成为评估视觉-语言联合建模性能的基准工具。

解决学术问题

RoVI-Book数据集有效解决了机器人操作中视觉指令理解的三大核心问题：跨模态表征对齐、操作序列的时序建模以及关键点检测的精度提升。通过提供带有关键点标注的旋转操作图像，该数据集推动了机器人视觉任务中空间关系理解的研究，为具身智能领域的多模态学习建立了新的评估标准。

衍生相关工作

RoVI-Book数据集催生了多个重要研究方向，包括基于LLaVA架构的视觉指令微调框架、结合YOLOv8的关键点检测系统，以及跨模态的机器人任务规划算法。这些工作扩展了数据集在视觉-语言预训练、操作轨迹预测等领域的应用边界，形成了完整的机器人视觉指令技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集