VIMA/VIMA-Data

Name: VIMA/VIMA-Data
Creator: VIMA
Published: 2023-06-17 04:52:09
License: 暂无描述

Hugging Face2023-06-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/VIMA/VIMA-Data

下载链接

链接失效反馈

官方服务：

资源简介：

这是用于训练多模态提示的通用机器人操作代理的官方数据集，如论文中所述。它包含了VIMA-Bench中13个任务的650K个轨迹。所有演示都是由脚本生成的。数据按任务分组，每个轨迹文件夹中包含两个文件夹`rgb_front`和`rgb_top`，以及三个文件`obs.pkl`、`action.pkl`和`trajectory.pkl`。`rgb_front`和`rgb_top`文件夹中分别存储了不同视角的RGB帧。`obs.pkl`文件包含分割和末端执行器的状态。`action.pkl`文件包含脚本生成的动作。`trajectory.pkl`文件包含元信息，如经过的步骤、任务信息和对象信息。用户可以从这里开始构建自定义的数据管道。

This is the official dataset for training general robotic operation agents with multimodal prompts, as detailed in the corresponding paper. It contains 650K trajectories across 13 tasks from the VIMA-Bench benchmark. All demonstrations are script-generated. The data is grouped by task, and each trajectory folder contains two subdirectories `rgb_front` and `rgb_top`, along with three files: `obs.pkl`, `action.pkl`, and `trajectory.pkl`. The `rgb_front` and `rgb_top` subdirectories store RGB frames from distinct camera perspectives respectively. The `obs.pkl` file contains segmentation masks and the states of the end-effector. The `action.pkl` file stores script-generated robot actions. The `trajectory.pkl` file contains metadata including elapsed steps, task details and object information. Users can build custom data pipelines starting from this dataset.

提供机构：

VIMA

原始信息汇总

数据集概述：VIMA-Data

数据集描述

概述: 该数据集用于训练具有多模态提示的通用机器人操作代理，包含650K轨迹，涵盖13个任务。所有演示由脚本化的oracle生成。
数据来源: 数据集是VIMA-Bench项目的一部分，详细信息可参考VIMA-Bench。
相关论文: VIMA: General Robot Manipulation with Multimodal Prompts。

数据集结构

数据组织: 数据按不同任务分组，每个轨迹文件夹内包含rgb_front和rgb_top两个文件夹，以及obs.pkl, action.pkl, trajectory.pkl三个文件。
文件内容:
- rgb_front和rgb_top: 存储特定视角的RGB帧。
- obs.pkl: 包含分割和末端执行器状态。
- action.pkl: 包含oracle动作。
- trajectory.pkl: 包含元信息，如已执行步骤、任务信息和对象信息。

数据集创建

生成方式: 所有演示数据由脚本化的oracle生成。

附加信息

许可证: 数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可发布。
引用信息: bibtex @inproceedings{jiang2023vima, title = {VIMA: General Robot Manipulation with Multimodal Prompts}, author = {Yunfan Jiang and Agrim Gupta and Zichen Zhang and Guanzhi Wang and Yongqiang Dou and Yanjun Chen and Li Fei-Fei and Anima Anandkumar and Yuke Zhu and Linxi Fan}, booktitle = {Fortieth International Conference on Machine Learning}, year = {2023} }

搜集汇总

数据集介绍

构建方式

在机器人操作领域，多模态提示驱动的通用智能体训练依赖于大规模、高质量的示范数据。VIMA-Data数据集正是为此而生，其构建过程完全基于脚本化的专家系统（oracles）自动生成。该数据集覆盖了VIMA-Bench基准中的13项复杂任务，累计包含65万条轨迹，每条轨迹均通过预设的专家策略在仿真环境中执行，确保了动作序列的准确性。数据以任务为单位进行组织，每个轨迹文件夹内包含前视与俯视两个视角的RGB图像序列，以及obs.pkl、action.pkl和trajectory.pkl三个文件，分别存储末端执行器状态与分割信息、专家动作以及任务元数据，为构建自定义数据流水线提供了清晰的起点。

特点

VIMA-Data数据集的核心特点在于其规模庞大且结构精细，能够支撑多模态提示下的通用机器人操作学习。13种任务类型涵盖了丰富的操作场景，65万条轨迹的体量为深度模型的训练提供了充足的样本多样性。数据采集采用多视角同步记录，rgb_front和rgb_top两个文件夹分别保存不同角度的视觉信息，有助于模型学习空间感知能力。此外，obs.pkl中的状态分割与动作数据相互独立，便于研究者灵活组合输入特征，而trajectory.pkl中的元数据则完整记录了任务上下文，使得数据集不仅适用于模仿学习，还能支持任务泛化与多模态对齐的研究。

使用方法

使用VIMA-Data进行模型训练时，研究者可依据任务需求从按任务分组的文件夹中加载数据。推荐的做法是首先解析trajectory.pkl获取任务描述与物体信息，随后根据obs.pkl中的状态数据与action.pkl中的专家动作构建监督信号。RGB图像可从对应视角文件夹中按时间步索引读取，与状态数据对齐后形成多模态输入。数据流水线的设计自由度较高，用户可参考官方仓库VimaBench中的示例代码，实现自定义的批次采样与数据增强策略。该数据集以CC-BY-4.0许可发布，允许广泛的研究用途，但需在成果中引用原始论文以示尊重。

背景与挑战

背景概述

在机器人操作领域，多模态提示的引入为通用智能体的训练开辟了新路径。VIMA-Data数据集由斯坦福大学、英伟达等机构的研究人员于2022年创建，核心团队包括Yunfan Jiang、Agrim Gupta、李飞飞等知名学者。该数据集旨在解决机器人如何根据视觉、语言等多模态指令完成多样化操作任务这一核心研究问题。VIMA-Data包含了650K条轨迹，覆盖13种任务，所有演示均由脚本化专家系统生成，为训练能够理解复杂提示并执行精确操作的机器人智能体提供了大规模、标准化的训练资源。该数据集的发布显著推动了多模态机器人学习领域的发展，成为VIMA-Bench基准测试的重要组成部分，其影响力体现在为后续研究提供了可复现的基线数据和评估框架。

当前挑战

当前VIMA-Data数据集面临的核心挑战之一是领域问题的复杂性：机器人需在高度动态的环境中融合视觉、语言等异构模态信息，并实时生成精准的动作序列，这要求模型具备强大的跨模态对齐与推理能力。构建过程中，挑战主要体现在数据生成的自动化与多样性平衡上——脚本化专家系统虽能高效生成大量轨迹，但难以覆盖真实世界中的长尾场景与意外情况，导致数据集的泛化性受限。此外，多视角RGB帧、分割掩码与动作标签的同步采集与存储对数据管道提出了严苛要求，确保不同模态数据在时间与空间上的一致性仍是技术难点。这些挑战共同制约了数据集在开放世界机器人操作任务中的直接迁移与应用。

常用场景

经典使用场景

VIMA-Data数据集是面向多模态提示驱动的通用机器人操作任务而设计的大规模基准数据集，其经典使用场景聚焦于训练具备视觉-语言-动作联合推理能力的智能体。该数据集包含65万条专家演示轨迹，覆盖13种桌面操作任务，如物体抓取、堆叠、匹配及重新排列等，每条轨迹均配备前视与俯视RGB图像、分割掩码、末端执行器状态及专家动作序列。研究者可利用这些多模态信息构建端到端的策略网络，使机器人能理解自然语言指令与视觉场景的语义关联，并生成精准的操控动作序列。

解决学术问题

该数据集系统性地解决了多模态提示下机器人操作策略泛化性不足与数据稀缺的学术难题。通过提供统一的任务格式与大规模高质量演示，VIMA-Data使研究人员能够探索视觉-语言-动作联合表征的学习机制，验证跨任务知识迁移与零样本泛化的可能性。其意义在于推动了从单一任务专用模型向通用操作智能体的范式转变，为研究多模态对齐、长时域任务规划以及视觉推理与物理交互的耦合提供了标准化评估平台，显著降低了该领域实验复现与对比的门槛。

衍生相关工作

VIMA-Data衍生了一系列具有影响力的研究工作，包括基于Transformer的多模态提示策略框架VIMA本身，以及后续的Prompt-Based决策模型、多任务模仿学习算法和视觉-语言导航操作联合学习方法。这些工作进一步探索了提示工程在机器人控制中的应用、跨模态注意力机制的设计，以及基于预训练视觉语言模型的知识迁移策略，共同推动了通用机器人操作从实验室环境走向真实世界的进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集