GATE-VLAP-datasets

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/gate-institute/GATE-VLAP-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

GATE-VLAP数据集是基于LIBERO基准套件的预处理数据集，专门用于训练视觉-语言-动作模型，并包含语义动作分割。数据集分为两部分：LIBERO-10（长期任务）和LIBERO-Object（对象操作任务）。LIBERO-10包含10个复杂的长期操作任务，共1,354个演示和103,650帧；LIBERO-Object包含10个以对象为中心的操作任务，共875个演示和66,334帧。数据集以原始PNG和JSON格式提供，便于检查、灵活加载和调试。

创建时间：

2025-12-03

原始信息汇总

GATE-VLAP 数据集概述

数据集基本信息

任务类别：强化学习、机器人学
标签：机器人学、LIBERO、操作、语义动作分块、视觉语言、模仿学习
数据规模：100K < n < 1M

数据集简介

该数据集包含来自 LIBERO 基准套件的预处理数据，专门用于训练具有语义动作分割功能的视觉-语言-动作模型。数据集以原始 PNG + JSON 格式提供，而非预打包的 TAR/WebDataset 文件，旨在提供易于检查、最大灵活性、便于调试、透明且利于版本控制的优势。

包含的数据集

1. LIBERO-10（长视野任务）

任务类型：10 个复杂的长视野操作任务
分割方法：使用 Gemini Vision API 进行语义动作分块
演示数量：跨越 29 个子任务的 1,354 个演示
总帧数：103,650 帧
子任务：任务被自动分割为原子子任务
示例任务：pick_up_the_black_bowl、close_the_drawer、put_the_bowl_in_the_drawer

2. LIBERO-Object（物体操作任务）

任务类型：10 个以物体为中心的操作任务
分割方法：基于规则的夹爪检测与停止信号
演示数量：跨越 20 个子任务的 875 个演示
总帧数：66,334 帧
子任务：针对 10 个不同物体的拾取和放置变体
示例任务：pick_up_the_alphabet_soup、place_the_alphabet_soup_on_the_basket

数据集结构

gate-institute/GATE-VLAP-datasets/ ├── libero_10/ # 长视野任务 │ ├── close_the_drawer/ │ │ ├── demo_0/ │ │ │ ├── demo_0_timestep_0000.png # RGB 观测 (128x128) │ │ │ ├── demo_0_timestep_0000.json # 动作与元数据 │ │ │ └── ... │ │ └── ... │ └── ... (共 29 个子任务) ├── libero_object/ # 物体操作任务 │ ├── pick_up_the_alphabet_soup/ │ │ ├── demo_0/ │ │ │ ├── demo_0_timestep_0000.png │ │ │ ├── demo_0_timestep_0000.json │ │ │ └── ... │ │ └── ... │ └── ... (共 20 个子任务) └── metadata/ # 数据集统计与分割信息 ├── libero_10_complete_stats.json ├── libero_10_all_segments.json ├── libero_object_complete_stats.json └── libero_object_all_segments.json

数据格式

JSON 元数据（每时间步）

每个 .json 文件包含：

action：7-DOF 动作（xyz, rpy, gripper）
robot_state：关节位置、速度
demo_id：演示标识符
timestep：时间步
subtask：子任务名称
parent_task：父任务名称
is_stop_signal：片段边界标记

动作空间

维度：7-DOF
- [0:3]：末端执行器位置增量（x, y, z）
- [3:6]：末端执行器方向增量（roll, pitch, yaw）
- [6]：夹爪动作（0.0 = 关闭，1.0 = 打开）
范围：归一化至 [-1, 1]
控制：增量动作（相对于当前位姿）

图像格式

分辨率：128×128 像素
通道：RGB（3 通道）
格式：PNG（无损压缩）
相机：前置智能体视角相机

元数据文件说明

1. `libero_10_complete_stats.json`

用途：整个 LIBERO-10 数据集的概览统计
内容：数据集名称、父任务总数、子任务总数、演示总数、总帧数、父任务映射、子任务详情

2. `libero_10_all_segments.json`

用途：每个演示的详细分割元数据
内容：演示标识符、子任务、父任务、分割片段列表（含片段ID、起止帧、描述、动作类型）、分割方法、总片段数

3. `libero_object_complete_stats.json`

用途：LIBERO-Object 数据集的统计信息（结构与 LIBERO-10 相同）
关键区别：更少、更简单的子任务（20 个 vs 29 个），以物体为中心的任务命名

4. `libero_object_all_segments.json`

用途：LIBERO-Object 演示的分割信息
分割方法：基于规则的夹爪检测（通过夹爪状态变化识别片段，停止信号标记任务完成）

引用

如果使用此数据集，请引用：

Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents (arXiv preprint, 2025)
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning (NeurIPS 2023)

致谢

LIBERO 基准：由 Liu 等人（2023）创建的原始数据集
分割：使用 Gemini Vision API 进行 LIBERO-10 语义分块
基础设施：在 GATE Institute 基础设施上处理

联系

如有问题，请在 GitHub 仓库提交 Issue。

数据集版本：1.0 最后更新：2025 年 12 月 维护者：GATE Institute

搜集汇总

数据集介绍

构建方式

在机器人操作与视觉语言规划领域，GATE-VLAP数据集源于LIBERO基准套件的预处理版本，旨在为语义动作分割的视觉语言动作模型训练提供支持。该数据集构建过程涉及对原始演示数据的系统化处理与标注，其中LIBERO-10长时程任务通过Gemini Vision API实现语义动作分块，自动将复杂操作序列分解为原子性子任务；而LIBERO-Object对象操作任务则采用基于规则的夹爪检测与停止信号方法进行分段。所有数据均以原始PNG图像与JSON元数据格式保存，确保了数据的可追溯性与灵活性，便于研究人员直接检视或转换为其他训练所需格式。

特点

GATE-VLAP数据集在机器人模仿学习与视觉语言动作规划中展现出多维度特点。其核心在于提供了精细的语义动作分割标注，每个时间步均包含七自由度动作向量、机器人状态及分段边界标记，支持层次化策略学习。数据集涵盖两类任务：LIBERO-10包含10项长时程复杂操作，共1354次演示与103650帧；LIBERO-Object则聚焦10种物体操作任务，包含875次演示与66334帧。图像数据统一为128×128像素的RGB观测，并以原始文件结构组织，配合完整的统计与分段元数据文件，为模型训练与评估提供了结构化且透明的数据基础。

使用方法

为高效利用GATE-VLAP数据集，研究者可依据具体需求选择不同的加载与处理方式。数据集以原始PNG与JSON文件形式提供，用户可直接通过文件路径遍历加载单次演示，逐帧获取图像与对应的动作、状态及元数据。若需流式训练，可利用附带的转换脚本将原始数据打包为WebDataset格式的TAR分片，以提升大规模训练时的I/O效率。此外，数据集附带的元数据文件如完整统计与分段详情，支持用户分析任务分布、规划训练划分或实现基于语义动作块的过滤与采样，从而灵活适配各类视觉语言动作模型的训练流程。

背景与挑战

背景概述

GATE-VLAP-datasets 由 GATE Institute 于 2025 年构建，旨在推动具身智能与机器人操作领域的研究。该数据集基于 LIBERO 基准套件，专注于长时程、多步骤的视觉-语言-动作规划任务，通过语义动作分割技术将复杂操作分解为原子子任务。其核心研究问题在于如何使机器人能够理解并执行包含丰富语义信息的开放式操作指令，从而促进通用视觉-语言-动作模型的发展，对机器人终身学习与知识迁移领域具有重要的推动作用。

当前挑战

该数据集旨在解决机器人操作中长时程任务规划与执行的挑战，其核心难题在于如何将高层语言指令精准映射为一系列低层、可执行的动作序列，并确保动作在复杂环境中的语义连贯性。在构建过程中，挑战主要集中于对原始演示数据进行高质量的语义分割，例如利用 Gemini Vision API 进行动作块识别时需克服视觉理解的模糊性，以及通过规则检测确保对象操作任务中动作边界的精确性，同时需处理大规模多模态数据的对齐与标准化问题。

常用场景

经典使用场景

在机器人操作与视觉语言规划领域，GATE-VLAP数据集为训练具备语义动作分割能力的智能体提供了关键资源。该数据集基于LIBERO基准套件构建，包含长时程任务与物体操作任务，通过原始PNG图像与JSON元数据格式，支持研究者直观检视与灵活处理。其经典应用场景在于开发视觉-语言-动作模型，利用语义动作分块技术，将复杂操作任务分解为原子子任务，从而促进模型学习层次化策略，实现从视觉观察到动作执行的端到端映射。

解决学术问题

该数据集有效应对了机器人学习中长期存在的若干挑战，特别是长时程任务规划中的动作序列建模难题。通过提供经过语义分块标注的演示数据，它助力解决动作表示学习、知识迁移与终身学习等核心学术问题。数据集中的动作分块信息使得研究者能够探索动作原语抽象、时序依赖建模以及跨任务技能复用，为构建通用型机器人智能体奠定了数据基础，推动了模仿学习与强化学习在复杂操作场景中的融合与发展。

衍生相关工作

围绕该数据集已衍生出多项重要研究工作，其中最具代表性的是原子动作切片方法，该方法利用语义分块构建与规划器对齐的动作选项，以训练通用视觉语言动作智能体。此外，基于LIBERO基准的终身知识迁移研究也广泛使用该数据集进行评测。这些工作共同推动了分层强化学习、视觉语言预训练以及机器人操作策略学习等方向的发展，为构建能够理解自然语言指令并执行复杂操作的机器人系统提供了关键算法与模型支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集