eval2_rgb_g_eval1prompt

Hugging Face2026-05-17 更新2026-05-18 收录

下载链接：

https://huggingface.co/datasets/robot-learning-group47/eval2_rgb_g_eval1prompt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人操作数据集，使用LeRobot工具创建。数据集包含机械臂（so_follower类型）执行任务时采集的时序数据，适用于机器人模仿学习、强化学习等任务。数据集包含5个完整的episode，总计3000帧数据，对应1个任务。数据以分块形式存储，包含两种模态：结构化数据（Parquet格式，总大小约100MB）和视频数据（MP4格式，总大小约200MB），视频帧率为30fps。每个数据样本包含以下字段：动作（action，6维浮点向量，表示机械臂的肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置）、观测状态（observation.state，6维浮点向量，与动作空间相同）、前视RGB图像观测（observation.images.front，分辨率480x640，3通道）、时间戳（timestamp）、帧索引（frame_index）、episode索引（episode_index）、全局索引（index）和任务索引（task_index）。数据已划分为训练集（包含全部5个episode）。

This dataset is a robotic manipulation dataset created using the LeRobot tool. It contains time-series data collected during task execution by a robotic arm (so_follower type), suitable for tasks such as robot imitation learning and reinforcement learning. The dataset includes 5 complete episodes, totaling 3000 frames of data, corresponding to 1 task. Data is stored in chunks and consists of two modalities: structured data (Parquet format, total size approximately 100MB) and video data (MP4 format, total size approximately 200MB), with a video frame rate of 30fps. Each data sample contains the following fields: action (a 6-dimensional floating-point vector representing the robotic arms shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, and gripper position), observation state (observation.state, a 6-dimensional floating-point vector, same as the action space), front RGB image observation (observation.images.front, resolution 480x640, 3 channels), timestamp, frame index, episode index, global index, and task index. The data has been split into a training set (including all 5 episodes).

创建时间：

2026-05-17

原始信息汇总

数据集概述

数据集名称：eval2_rgb_g_eval1prompt
来源平台：Hugging Face Datasets
许可证：Apache-2.0
任务类别：机器人技术（Robotics）
创建工具：基于 LeRobot 框架构建

数据集规模与结构

总片段数（episodes）：5
总帧数（frames）：3000
任务数量：1
帧率（FPS）：30
分块大小：1000
数据集大小：
- 数据文件：100 MB
- 视频文件：200 MB
数据划分：仅包含训练集（train: 0:5），即全部5个片段用于训练

数据集组成

数据以 Parquet 文件和 MP4 视频文件存储：

文件类型	路径模式
数据文件	`data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet`
视频文件	`videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4`

机器人类型与特征

机器人型号：so_follower
动作与状态特征（均为6维浮点向量，包含以下关节位置）：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

视觉观测

图像键名：observation.images.front
分辨率：480 × 640 像素
颜色通道：3（RGB）
编码格式：AV1
像素格式：yuv420p
帧率：30 FPS
是否为深度图：否

其他数据字段

字段名	数据类型	形状	说明
`timestamp`	float32	[1]	时间戳
`frame_index`	int64	[1]	帧索引
`episode_index`	int64	[1]	片段索引
`index`	int64	[1]	全局索引
`task_index`	int64	[1]	任务索引

引用信息

当前数据集的 BibTeX 引用信息尚未提供，标记为 [More Information Needed]。

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，采用SO_Follower机器人平台，通过遥操作或预设策略采集5个演示片段，总计3000帧数据，涵盖单任务场景。数据存储格式为Parquet与MP4视频文件，其中动作信号与观测状态均为六维连续值，分别对应机器人肩部、肘部、腕部及夹爪的自由度参数。数据文件按区块组织，每个区块包含1000帧，训练集直接使用全部片段，未划分验证集，确保数据完整性与高效加载。

特点

数据集以高频30帧率采集，提供640×480像素的彩色视觉观测，视频采用AV1编码压缩，兼顾清晰度与存储效率。特征空间明确区分动作指令与观测状态，且维度对齐（均为6维关节参数），便于模仿学习中的状态-动作映射。包含时间戳、帧索引、片段索引等结构化元数据，支持时序任务建模。整体规模适中（影像占200MB、数据占100MB），适用于快速原型验证。

使用方法

用户可通过LeRobot库的‘load_dataset’接口加载数据集，利用其内置的数据迭代器访问观测、动作与视频帧。典型使用路径包括：从训练集中提取（action, observation.state）序列对，用于行为克隆或逆强化学习；结合‘observation.images.front’视觉流，训练端到端策略网络。若需可视化数据，可直接调用HuggingFace提供的在线可视化工具，交互式浏览各片段中的机器人轨迹与对应影像。

背景与挑战

背景概述

随着机器人学习领域的快速发展，模仿学习作为从人类示范中获取策略的关键技术，对高质量、多模态数据的需求日益迫切。eval2_rgb_g_eval1prompt数据集由机器人学习研究团队在LeRobot框架下创建，专为机器人操控任务设计，聚焦于SO-Follower机械臂的精细动作学习。该数据集于近期发布，包含5个完整任务轨迹，总计3000帧序列，同步采集了6维关节动作指令与640×480分辨率的RGB视觉观测。通过标准化parquet格式存储动作状态与MP4视频数据，为基于视觉的机器人操控策略训练提供了结构化基准。其开源Apache-2.0许可与LeRobot生态的兼容性，显著降低了领域内研究者获取高质量示范数据的门槛，推动机器人学习从仿真环境向真实物理系统的迁移研究。

当前挑战

数据集所解决的领域挑战在于机器人操控场景下视觉-运动映射的泛化瓶颈，传统方法因缺乏多视角、多任务真实示范数据而难以适应动态环境，该数据集通过同步高帧率视觉与精密关节状态，为端到端模仿学习提供了关键训练材料。构建过程中的挑战尤为突出：首先，SO-Follower机械臂的16kHz高精度控制需与30fps视频流实现微秒级同步，硬件时序偏差直接影响动作-观测对齐可靠性；其次，单任务仅5个示范轨迹的数据规模，对数据增强策略提出极高要求，需在保持物理一致性前提下规避过拟合；再者，RGB相机视角固定导致的环境光照变化与机械臂自遮挡问题，要求构建严格标准化采集流程以维持数据一致性。

常用场景

经典使用场景

在机器人学习领域，eval2_rgb_g_eval1prompt数据集专为模仿学习与行为克隆范式设计，尤其侧重于基于视觉的机器人操控任务。该数据集通过记录“so_follower”机器人在单一任务上的5个完整回合、共计3000帧的序列数据，提供了包含6维关节动作指令与对应状态信息，以及前置摄像头采集的高清RGB视频流。研究者可利用这些数据训练策略网络，使机器人通过观察专家演示，学习从视觉输入映射至精细动作的操控策略，实现诸如物体抓取、放置等基础任务的自主执行。

衍生相关工作

基于此类格式的数据集，衍生出了众多经典工作，如LeRobot框架下的多任务模仿学习基准、融合视觉与触觉的跨模态策略迁移研究，以及针对少量演示数据的数据增强与预训练方法。这些工作进一步探索了如何通过元学习、域随机化等技术提升策略的泛化性，或利用层次化架构实现复杂长序列任务的分解与复用。此外，该数据集亦为构建大规模开源机器人数据库树立了范式，激发了机器人技能库共享与社区协作生态的蓬勃发展。

数据集最近研究