GATE-VLAP

Name: GATE-VLAP
Creator: 索菲亚大学 'St. Kliment Ohridski'，索菲亚技术大学，特文特大学，GATE研究所
Published: 2025-12-12 22:14:27
License: 暂无描述

arXiv2025-12-12 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/gate-institute/GATE-VLAP-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

GATE-VLAP数据集由索菲亚大学GATE研究所等机构创建，旨在为通用视觉-语言-动作（VLA）智能体提供细粒度的原子动作标注数据。该数据集包含2124个经过验证的原子动作片段，源自LIBERO长视界演示任务的分割结果，每个片段标注了动作类型、时间跨度和置信度。数据通过三阶段流程（规划引导发现、模式约束的LLM分割、验证）构建，将原始任务分解为可组合的原子技能（如抓取、放置等），显著提升了CLIP-RT+模型在LIBERO-Goal（95.3%）和LIBERO-Long（88.8%）任务上的成功率，为符号规划与低层控制提供了关键桥梁。

提供机构：

索菲亚大学 'St. Kliment Ohridski'，索菲亚技术大学，特文特大学，GATE研究所

创建时间：

2025-12-12

原始信息汇总

GATE-VLAP 数据集概述

数据集基本信息

数据集名称: GATE-VLAP Datasets
任务类别: 强化学习、机器人学
标签: 机器人学、LIBERO、操作、语义动作分块、视觉语言、模仿学习
数据规模: 10万 < n < 100万
数据格式: WebDataset TAR 格式

数据集内容

1. LIBERO-10 (长视野任务)

任务类型: 10个复杂的长视野操作任务
分割方法: 使用 Gemini Vision API 进行语义动作分块
演示数量: 29个子任务共1,354个演示
帧总数: 103,650帧
TAR文件: 29个文件（每个子任务一个）

示例任务:

pick_up_the_black_bowl.tar → 拾取和放置子任务
close_the_drawer.tar → 接近、抓握、关闭子任务
put_the_bowl_in_the_drawer.tar → 多步骤拾取、打开、放置、关闭序列

2. LIBERO-Object (对象操作)

任务类型: 10个以对象为中心的操作任务
分割方法: 使用 Gemini Vision API 进行语义动作分块
演示数量: 20个子任务共875个演示
帧总数: 66,334帧
TAR文件: 20个文件（每个子任务一个）

示例任务:

pick_up_the_alphabet_soup.tar → 接近、抓握、抬起
place_the_alphabet_soup_on_the_basket.tar → 移动、定位、放置、释放

数据集结构

gate-institute/GATE-VLAP-datasets/ ├── libero_10/ # 长视野任务 (29个TAR文件) ├── libero_object/ # 对象操作 (20个TAR文件) └── metadata/ # 数据集统计与分割信息 ├── libero_10_complete_stats.json ├── libero_10_all_segments.json ├── libero_object_complete_stats.json └── libero_object_all_segments.json

TAR文件内部结构

提取 pick_up_the_black_bowl.tar 后:

pick_up_the_black_bowl/ ├── demo_0/ │ ├── demo_0_timestep_0000.png # RGB观察 (128×128) │ ├── demo_0_timestep_0000.json # 动作 + 元数据 │ ├── demo_0_timestep_0001.png │ ├── demo_0_timestep_0001.json │ └── ... ├── demo_1/ │ └── ... └── ... (此子任务的所有演示)

数据格式详情

JSON元数据 (每时间步)

每个 .json 文件包含: json { "action": [0.1, -0.2, 0.0, 0.0, 0.0, 0.0, 1.0], // 7自由度动作 "robot_state": [...], // 关节状态 "demo_id": "demo_0", "timestep": 42, "subtask": "pick_up_the_black_bowl", "parent_task": "LIBERO_10", "is_stop_signal": false // 片段边界 }

动作空间

维度: 7自由度
- [0:3]: 末端执行器位置增量 (x, y, z)
- [3:6]: 末端执行器方向增量 (roll, pitch, yaw)
- [6]: 夹爪动作 (0.0 = 关闭, 1.0 = 打开)
范围: 归一化到 [-1, 1]
控制: 增量动作（相对于当前姿态）

图像格式

分辨率: 128×128像素
通道: RGB (3通道)
格式: PNG (无损压缩)
摄像头: 前向代理视角摄像头

元数据文件说明

1. `libero_10_complete_stats.json`

用途: 整个LIBERO-10数据集的概览统计
使用场景: 理解数据集组成、规划训练分割、检查任务间的演示/帧分布

2. `libero_10_all_segments.json`

用途: 每个演示的详细分割元数据
包含内容: 语义动作块，包括片段边界（起始/结束帧）、动作描述、片段类型（到达、抓握、移动、放置等）、Gemini Vision API分割方法
使用场景: 使用语义动作块进行训练、实现分层策略、分析动作原语、按片段类型过滤

3. `libero_object_complete_stats.json`

用途: LIBERO-Object数据集的统计信息

4. `libero_object_all_segments.json`

用途: LIBERO-Object演示的语义动作分块分割信息

引用信息

如果使用此数据集，请引用: bibtex @article{gateVLAP@SAC2026, title={Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents}, author={Stefan Tabakov, Asen Popov, Dimitar Dimitrov, Ensiye Kiyamousavi and Boris Kraychev}, journal={arXiv preprint arXiv:XXXX.XXXXX}, conference={The 41st ACM/SIGAPP Symposium On Applied Computing (SAC2026), track on Intelligent Robotics and Multi-Agent Systems (IRMAS)}, year={2025} }

@inproceedings{liu2023libero, title={LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning}, author={Liu, Bo and Zhu, Yifeng and Gao, Chongkai and Feng, Yihao and Liu, Qiang and Zhu, Yuke and Stone, Peter}, booktitle={NeurIPS Datasets and Benchmarks Track}, year={2023} }

致谢

LIBERO基准: Liu等人 (2023) 的原始数据集
分割: 用于语义动作分块的Gemini Vision API
机构: GATE Institute, Sofia, Bulgaria (https://www.gate-ai.eu/en/home/)

联系信息

如有问题，请联系GATE Institute (https://www.gate-ai.eu/en/home/)。

数据集版本: 1.0 最后更新: 2025年12月 维护者: GATE Institute (https://www.gate-ai.eu/en/home/)

搜集汇总

数据集介绍

构建方式

在机器人学习领域，将长时程演示分解为可规划的原子动作是提升模型组合泛化能力的关键。GATE-VLAP数据集的构建采用了原子动作切片（AAS）方法，该方法通过三阶段流程实现：首先，利用任务规划器（如AutoGPT+P）基于任务指令和场景符号描述生成有序的原子动作序列，确定预期的动作类型、数量与顺序；随后，借助模式约束的大型视觉语言模型，结合关键帧与任务模式，对演示视频进行时序分割，为每个原子动作划定起止边界；最后，通过数量、顺序和持续时间三重验证机制对分割结果进行校验，并为每个原子片段分配置信度分数，从而从LIBERO演示数据中提炼出2124个经过验证的、与规划器对齐的原子动作片段。

使用方法

GATE-VLAP数据集主要服务于两大下游应用方向。在规划层面，其标注的原子动作可直接作为符号规划器的操作符库，用于生成或修复高层任务计划，为实现分层决策与控制提供了基础接口。在学习层面，该数据集为视觉-语言-动作模型的微调提供了优质的训练样本。研究已表明，使用这些原子片段对CLIP-RT+等策略进行微调，能有效提升模型在组合任务上的泛化性能，如在LIBERO-Long任务上的成功率可从83.8%提升至88.8%。用户可通过HuggingFace平台获取该数据集，并依据其标注的时间边界与动作类型，将其应用于策略训练、表示学习或规划算法的开发与评估之中。

背景与挑战

背景概述

在机器人学习与人工智能领域，通用视觉-语言-动作模型旨在实现跨任务、跨环境的统一感知、推理与控制能力。然而，现有模型在处理分布外任务及技能新组合时泛化性能显著下降，其核心瓶颈在于长时程演示数据缺乏明晰的语义结构，导致策略难以习得可迁移、可组合的技能。为此，由保加利亚索非亚大学、索非亚技术大学及特文特大学的研究团队于2025年提出了GATE-VLAP数据集，该数据集通过原子动作切片技术，将LIBERO基准中的长时程演示分解为2124个短时、类型化、可验证的原子动作片段，为符号规划器提供可直接调用的操作符，并为策略学习提供细粒度监督。这一工作显著提升了VLA模型在组合泛化上的性能，为连接高层规划与底层控制建立了重要桥梁。

当前挑战

GATE-VLAP数据集致力于解决通用VLA智能体在组合泛化方面的核心挑战，即模型在面对未知技能组合或新对象时性能急剧退化的问题。通过提供规划对齐的原子动作，数据集旨在使智能体能够学习可复用、可组合的基本技能单元，从而提升其在复杂长时程任务中的鲁棒性。在构建过程中，研究团队面临多重挑战：其一，依赖结构化环境描述来生成任务规划，这在缺乏丰富符号规格或场景描述不完整的实际环境中适用性受限；其二，时间对齐的质量对关键帧选择与视频质量敏感，若重要状态转换发生在采样帧之间或序列噪声较大，推断的动作边界易产生漂移；其三，当前评估仅限于LIBERO仿真环境，尚未在真实机器人数据或更开放的场景中得到验证，限制了其向现实世界应用的迁移能力。

常用场景

经典使用场景

在机器人学习与视觉-语言-动作（VLA）模型的研究领域中，GATE-VLAP数据集为长时程任务分解提供了关键支持。该数据集通过原子动作切片技术，将复杂的机器人演示轨迹分割为短小、类型化的原子动作单元，这些单元与符号化任务规划器（如STRIPS/HTN）对齐，从而为分层强化学习和规划算法提供了结构化的训练与验证基础。经典使用场景包括利用这些标注了动作类型、时间跨度和置信度的原子片段，对通用VLA代理进行微调，以提升其在多步骤组合任务中的泛化能力与执行成功率。

解决学术问题

GATE-VLAP数据集主要解决了当前VLA模型在分布外任务和新技能组合上泛化能力不足的学术难题。通过提供规划器对齐的原子动作标注，该数据集使研究人员能够将符号规划与低层控制相结合，从而缓解了传统端到端模仿学习中技能可组合性差和数据偏差问题。其意义在于为机器人学习引入了明确的时序结构与语义约束，推动了分层策略学习与规划集成的研究方向，显著提升了模型在复杂长时程任务中的鲁棒性与可解释性。

实际应用

在实际机器人操作场景中，GATE-VLAP数据集能够支持家庭服务机器人或工业机械臂执行多步骤的物体操纵任务。例如，在“将碗放入抽屉并关闭”这类日常活动中，数据集提供的原子动作序列（如抓取碗、放置碗、关闭抽屉）可作为模块化技能库，使机器人能够灵活组合基本动作以完成新指令。这种基于规划的分层控制框架，增强了机器人在动态环境中的适应能力，为智能体在真实世界的部署提供了可靠的技术基础。

数据集最近研究