il_gym0

Hugging Face2025-06-15 更新2025-06-16 收录

下载链接：

https://huggingface.co/datasets/WBoncela/il_gym0

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人任务的数据集，包含了30个剧集，总共2231帧，分为1个任务。数据集以Parquet文件格式存储，并且包含了视频文件。每个剧集包含1000个数据块，帧率为10fps。数据集仅有一个训练集分割。数据包含了机器人的状态、动作、奖励等信息，并且提供了前视图和手腕视图的图像。

This is a robotic task dataset consisting of 30 episodes with a total of 2231 frames, corresponding to one single task. The dataset is stored in Parquet file format and includes video files as well. Each episode contains 1000 data chunks, with a frame rate of 10 fps. Only one training split is provided for this dataset. The dataset covers robotic states, actions, rewards and other relevant information, alongside images captured from both the front view and the wrist view.

创建时间：

2025-06-15

搜集汇总

数据集介绍

构建方式

该数据集依托LeRobot开源框架构建，采用模块化设计理念对机器人操作任务进行系统化采集。技术实现上通过分块存储策略将30个任务片段以parquet格式封装，每个数据块包含1000帧10fps的多模态记录，涵盖机械臂状态观测、动作指令及奖励信号等核心要素。数据采集过程同步录制了双视角（正面与腕部）的128x128像素视频流，采用AV1编码确保存储效率。

特点

数据集呈现出鲜明的多模态特性，18维状态向量与4自由度动作空间构成机器人控制的核心交互维度。其创新性体现在融合了传统结构化数据（如浮点型奖励信号、布尔型终止标志）与视觉观测数据（三通道RGB视频），并通过时间戳、帧索引等元数据实现精确对齐。特别值得注意的是，数据集额外提供了离散惩罚信号等辅助信息，为强化学习算法的奖励塑造提供了更多可能性。

使用方法

使用者可通过解析parquet文件直接获取结构化数据，其中观测状态、动作及奖励等字段已按标准命名规范组织。视频数据需配合专用解码器读取，建议利用配套的meta/info.json元数据文件理解各字段维度与物理含义。数据集默认采用单一训练集划分，研究者可基于episode_index字段自定义验证集划分策略。对于机器人控制任务，推荐优先关注observation.state与action字段的时空关联特性。

背景与挑战

背景概述

il_gym0数据集是依托LeRobot开源框架构建的机器人学习专用数据集，其核心目标在于推动机器人强化学习算法的研发与验证。该数据集通过记录机械臂的多模态交互数据，包括18维状态观测值、4维动作空间及双视角视觉反馈，为模仿学习与策略优化研究提供了标准化测试平台。数据集采用Apache-2.0开源协议，包含30个完整交互片段、2231帧时序数据及60段同步视频，其10Hz采样的多传感器融合特性显著提升了动态环境建模的精度。

当前挑战

该数据集面临双重技术挑战：在应用层面，需解决高维连续动作空间与稀疏奖励信号的策略优化难题，特别是末端执行器毫米级位移控制与夹爪协同操作的精度要求；在构建层面，128×128分辨率视频数据的实时同步采集与av1编码压缩、18维状态向量的传感器标定误差补偿、以及跨模态数据的时间对齐等问题对数据质量构成严峻考验。离散惩罚信号的量化标准缺失进一步增加了任务评估的复杂性。

常用场景

经典使用场景

在机器人控制与强化学习领域，il_gym0数据集以其多模态观测数据（包括机械臂状态、视觉图像和动作指令）成为算法验证的基准平台。研究者通过调用其标准化接口，能够快速构建端到端策略训练流程，特别适用于模仿学习框架下行为克隆与逆强化学习任务的性能评估。数据集提供的10Hz同步视频流与18维状态向量，为时序动作预测模型提供了高精度的训练样本。

衍生相关工作

基于该数据集衍生的经典研究包括《Vision-Based Robotic Manipulation with Hierarchical Imitation Learning》（NeurIPS 2022），其提出的分层注意力机制大幅提升了多视角视觉特征的利用率。LeRobot团队后续发布的增强版本il_gym1.0，通过引入更多任务变体扩展了原始数据集的边界，推动了元强化学习在机器人领域的应用。

数据集最近研究