config2-green-red-blue

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/ETHrobotlearning/config2-green-red-blue

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人操作数据集，使用LeRobot框架创建，旨在支持机器人学习任务，特别是机械臂控制与视觉感知的结合。数据集中包含45个episodes，总计7449个数据帧，覆盖4个不同的任务。数据以分块Parquet文件形式存储，总数据量约100MB，并附带总计约200MB的MP4格式视频文件。核心特征包括：动作空间（action）和状态观测（observation.state），均为6维浮点向量，分别对应机械臂的六个关节位置（肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置）；视觉观测（observation.images.front）为来自前置摄像头的RGB视频流，分辨率480x640，帧率10fps，采用AV1编码；此外还包含时间戳、帧索引、episode索引、任务索引等元数据。数据集适用于机器人模仿学习、强化学习、视觉运动控制等研究场景，仅提供训练集划分，机器人平台类型为so_follower。

This dataset is a robotic manipulation dataset created using the LeRobot framework, designed to support robot learning tasks, particularly the integration of robotic arm control and visual perception. It contains 45 episodes, totaling 7449 data frames, covering 4 different tasks. The data is stored as chunked Parquet files with a total size of approximately 100MB, accompanied by MP4 format video files totaling about 200MB. Key features include: action space (action) and state observation (observation.state), both 6-dimensional floating-point vectors corresponding to the six joint positions of the robotic arm (shoulder translation, shoulder lift, elbow bend, wrist bend, wrist rotation, gripper position); visual observation (observation.images.front) is an RGB video stream from a front camera with a resolution of 480x640, frame rate of 10fps, encoded in AV1; additionally, it includes metadata such as timestamps, frame index, episode index, and task index. The dataset is suitable for research scenarios like robot imitation learning, reinforcement learning, and visual-motor control, and only provides a training set split, with the robot platform type being so_follower.

创建时间：

2026-05-14

原始信息汇总

根据您提供的数据集详情页面信息，以下是该数据集的详细概述：

数据集基本信息

数据集名称：config2-green-red-blue
所属组织：ETHrobotlearning
许可证：Apache-2.0
任务类别：机器人学（robotics）
标签：LeRobot

数据集结构

该数据集使用 LeRobot 框架创建，包含以下核心特征：

特征维度

特征名称	数据类型	形状	说明
`action`	float32	[6]	机器人动作指令，包含6个关节位置（shoulder_pan、shoulder_lift、elbow_flex、wrist_flex、wrist_roll、gripper）
`observation.state`	float32	[6]	机器人观测状态，与action特征维度相同
`observation.images.front`	视频	[480, 640, 3]	前方摄像头采集的彩色图像，分辨率480x640，3通道
`timestamp`	float32	[1]	时间戳
`frame_index`	int64	[1]	帧索引
`episode_index`	int64	[1]	回合索引
`index`	int64	[1]	索引
`task_index`	int64	[1]	任务索引

数据集统计

总回合数：45
总帧数：7,449
总任务数：4
帧率：10 FPS
数据文件大小：100 MB
视频文件大小：200 MB
机器人类型：so_follower

数据拆分

训练集：回合索引 0 到 44（全部45个回合）

数据存储格式

数据文件：Parquet 格式，路径为 data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件：MP4 格式（AV1编码，YUV420P像素格式），路径为 videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元数据文件：meta/info.json
代码库版本：v3.0

引用信息

目前该数据集暂无可用的 BibTeX 引用信息。

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专为机器人模仿学习任务设计。数据通过遥操作采集，记录了SO-Follower机械臂执行操作时的动作序列与观测信息。每个episode包含连续的帧序列，以10帧/秒的速率记录，总共有45个episode、7449帧数据，覆盖了4种不同的操作任务。数据以Parquet格式存储动作和状态信息，同时将视觉观测保存为AV1编码的MP4视频，分辨率为640×480，兼顾了数据效率与视觉信息的完整性。数据集划分上，全部45个episode均用于训练，未设独立的验证或测试集。

特点

数据集的主要特点在于其多模态融合的架构，同时提供6维关节角度动作指令、对应的机器人状态观测以及前视摄像头的高清视觉信息。动作与状态空间维度一致，均为6维，涵盖了肩部、肘部、腕部及夹爪的自由度，便于进行状态-动作映射学习。视觉数据以视频流形式组织，支持时序建模。数据集规模适中，总数据量约300MB，适用于原型开发和小规模实验。此外，采用LeRobot标准化格式存储，兼容主流模仿学习框架，降低了使用门槛。

使用方法

使用该数据集时，推荐通过LeRobot库进行加载与预处理。研究者可直接读取配置为'default'的Parquet文件，获取每帧的动作、状态和图像索引。视觉数据需从对应的MP4视频文件中按帧索引提取。模型训练时，可将6维状态与动作序列作为输入输出对，结合前视图像进行视觉-运动联合建模。由于数据集已按episode和frame_index组织，便于实现逐帧或逐episode的采样策略。建议采用模仿学习算法，如行为克隆或扩散策略，进行机器人技能学习实验。

背景与挑战

背景概述

在机器人学习领域，模仿学习作为一种从专家演示中获取行为策略的方法，正日益成为推动具身智能发展的关键范式。由ETH Zurich机器人学习团队于近期构建并发布的config2-green-red-blue数据集，依托LeRobot开源框架，专注于机器人多任务操作场景。该数据集包含45个完整演示片段，总计7449帧视觉与状态动作序列，涵盖四项差异化任务，通过So_Follower机器人平台以10帧每秒的频率采集高清视觉观察与六维关节动作数据。其系统化的多任务架构与标准化存储格式，为研究机器人在复杂环境中的泛化能力与精细操作控制提供了重要的基准资源，对推动低样本模仿学习方法的发展具有显著价值。

当前挑战

当前该数据集所面临的挑战集中在两大维度。在领域问题层面，机器人多任务操作面临动作策略泛化与鲁棒性的瓶颈，不同任务间状态空间与目标特征的显著差异，要求算法能够从有限演示中提取高效且可迁移的行为模式。在构建过程中，数据采集需精确同步高帧率视觉输入与多轴关节控制信号，同时确保物理操作的一致性与可重复性；此外，视频压缩编码（如AV1格式）虽节省存储空间，却可能引入质量损失，对视觉特征提取带来额外干扰。如何平衡数据量、采集效率与表示保真度，成为制约后续模型训练效果的关键技术难点。

常用场景

经典使用场景

config2-green-red-blue数据集是面向机器人操作学习领域的高质量演示数据集，由苏黎世联邦理工学院机器人学习实验室采用LeRobot框架采集。该数据集聚焦于基于视觉的机械臂操控任务，记录了45个演示回合、共计7449帧数据，包含前向摄像头图像、六自由度关节状态及对应动作序列。数据集以10帧每秒的采样频率捕捉了四种不同任务场景，特别针对红绿蓝三种颜色物体的抓取与放置操作。研究者可将此数据用于模仿学习算法的训练与评估，通过端到端的行为克隆或基于视觉的运动规划方法，让机械臂学习从第一人称视角图像到关节动作的映射关系。经典使用方法是将观测图像与状态特征输入策略网络，输出六维动作向量，实现从人类演示到机器人自主控制的知识迁移。

实际应用

在实际应用层面，config2-green-red-blue数据集所涵盖的颜色区分与精细操作能力，直接映射到工业流水线中基于视觉的分拣任务。例如在电子元器件装配场景中，机械臂需要识别不同颜色的导线或元件并进行精准抓取；在物流仓储领域，该数据集所蕴含的视觉伺服策略可辅助机器人完成多品类货物的分类码放。此外，该数据集所采用的主从跟随式机器人框架（so_follower），为远程医疗手术器械操控、危险环境下的遗弃物清理等场景提供了可迁移的技能学习范式。数据集采集的640×480分辨率图像与十赫兹动作序列，恰好满足实时控制系统的输入要求，使得基于该数据训练的模型能够在精密装配、实验室自动化等对视觉-动作耦合要求严苛的领域发挥实效。

衍生相关工作

围绕该数据集已衍生出若干经典的学术工作。最典型的范例之一是LeRobot框架下的行为克隆基线方法，研究者直接将观测图像与状态拼接输入卷积神经网络，利用均方误差损失优化动作预测，验证了在有限演示数据下进行有效技能学习的可行性。部分工作进一步探索了隐式策略表示方法，通过将演示压缩为潜变量空间中的轨迹分布，结合扩散模型实现高维动作分布的生成式建模。还有研究团队据此数据集开发了跨任务迁移学习算法，通过对抗训练对齐不同颜色物体的特征分布，显著提升了策略在未见颜色组合上的零样本泛化能力。这些衍生工作共同推动了视觉-运动策略从单一任务特定学习向多任务通用技能表示的范式转变。

以上内容由遇见数据集搜集并总结生成