config1-red-blue-green

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/ETHrobotlearning/config1-red-blue-green

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot工具创建，属于机器人学习领域。它包含45个情节（episodes），总计7600帧数据，涵盖3个不同的任务。数据以Parquet文件格式存储，总数据文件大小为100 MB，视频文件大小为200 MB。数据集的特征包括：动作（action）和状态观测（observation.state），均为6维浮点向量，对应机器人关节位置（如肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置）；图像观测（observation.images.front）为来自前置摄像头的视频数据，分辨率为480x640，3通道，帧率为10 fps，编码格式为AV1；此外还包含时间戳（timestamp）、帧索引（frame_index）、情节索引（episode_index）、全局索引（index）和任务索引（task_index）等元数据字段。数据集使用Franka Emika Panda机器人（robot_type: so_follower）收集，所有数据均划分为训练集（splits: train）。该数据集适用于机器人模仿学习、强化学习或视觉运动控制等任务。

创建时间：

2026-05-09

原始信息汇总

数据集概述

数据集名称: config1-red-blue-green
数据集地址: https://huggingface.co/datasets/ETHrobotlearning/config1-red-blue-green
许可证: Apache-2.0
任务类别: 机器人学（Robotics）
标签: LeRobot
创建工具: 该数据集使用 LeRobot 创建。

数据集描述

该数据集为机器人模仿学习数据集，旨在用于机器人控制与操作任务。数据集共包含 45 个片段（episodes）、7600 帧（frames） 和 3 个任务（tasks）。数据集总大小约为 300 MB（包含 100 MB 数据文件 + 200 MB 视频文件），帧率为 10 FPS。

数据集特征

特征	数据类型	形状	说明
action	float32	[6]	机器人执行的动作，包含肩关节、肘关节、腕关节和夹爪位置
observation.state	float32	[6]	机器人关节状态，与动作维度一致
observation.images.front	video	[480, 640, 3]	前置摄像头图像（视频格式），分辨率 480×640，3 通道
timestamp	float32	[1]	时间戳
frame_index	int64	[1]	帧索引
episode_index	int64	[1]	片段索引
index	int64	[1]	全局索引
task_index	int64	[1]	任务索引

动作/状态维度说明：包含肩关节旋转（shoulder_pan.pos）、肩关节升降（shoulder_lift.pos）、肘关节弯曲（elbow_flex.pos）、腕关节弯曲（wrist_flex.pos）、腕关节旋转（wrist_roll.pos）和夹爪位置（gripper.pos）共 6 个维度。

视频编码信息：采用 AV1 编码，像素格式为 yuv420p，帧率 10 FPS，无音频。

数据集结构

数据文件格式：Parquet 文件，路径为 data/*/*.parquet
视频文件格式：MP4 文件，路径为 videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据集分片：数据分块大小为 1000 帧/块
划分方式：仅包含训练集（train），覆盖全部 45 个片段（索引 0~44）
机器人类型：so_follower

其他信息

主页: 暂无信息（[More Information Needed]）
论文: 暂无信息（[More Information Needed]）
引用: 暂无可用 BibTeX 引用

搜集汇总

数据集介绍

构建方式

该数据集由ETH Robotics团队基于LeRobot框架构建，专注于机器人操作任务的学习与复现。数据集通过实时采集机器人在红、蓝、绿三色物体操作环境中的多模态数据而成，涵盖了45个完整episode，共计7600帧图像序列与对应动作状态信息。数据以Parquet格式存储结构化特征，包括6维关节动作向量（shoulder_pan至gripper）以及同维度的观察状态，同时配备640x480分辨率的RGB视频流，采用AV1编码压缩，帧率为10 FPS。训练集划分依据episode索引（train: 0-45），数据与视频文件按chunk方式组织，便于大规模分布式加载与训练。

使用方法

数据集可直接通过LeRobot库加载，调用`dataset = LeRobotDataset('ETHrobotlearning/config1-red-blue-green')`即可获取训练数据。用户可访问HuggingFace提供的可视化Spaces页面（`lerobot/visualize_dataset`）预览视频与动作序列。数据包含`observation.images.front`、`observation.state`、`action`等关键字段，支持以episode或帧为单位索引。建议基于LeRobot内置的DataModule进行批量处理，结合其提供的`fps=10`帧率与`chunks_size=1000`分块策略，可高效用于行为克隆（BC）、扩散策略（DP）等模仿学习算法的训练与评估。

背景与挑战

背景概述

在机器人学习领域，模仿学习作为赋予机器人复杂操作能力的关键范式，其发展高度依赖于大规模、高质量且包含多模态观测数据的行为克隆数据集。ETH Zurich机器人学习实验室创建的config1-red-blue-green数据集，于2024年基于开放的LeRobot框架构建，旨在为机器人操作技能学习提供标准化基准。该数据集聚焦于多任务机械臂操控场景，通过Sony Xperia SO-Follower机器人采集了45个完整演示片段，涵盖3种不同颜色物体的分类抓取任务，总帧数达7600帧。其设计不仅规范了动作与观测状态的表示（如六维关节空间参数），还集成了AV1编码的640×480视觉流与10Hz高频率采样，为研究从视觉输入到运动控制的端到端映射提供了高质量数据支撑。作为LeRobot生态系统的组成部分，该数据集推动了机器人学习社区中数据标准化与重现性研究的进程。

当前挑战

该数据集核心挑战在于解决机器人多任务模仿学习中数据效率与泛化性的矛盾。一方面，仅凭45个演示片段和7600帧数据，模型需在有限样本下学习不同颜色物体抓取策略的语义差异，这要求算法具备强大的特征提取与少样本适应能力，而当前主流方法在跨任务知识迁移方面仍面临过拟合风险。另一方面，构建过程中面临多模态数据同步与物理系统噪声的难题：尽管采用10Hz统一帧率，但视觉流（480×640）与关节状态数据（6维）在时间对齐上存在微秒级偏差，且机械臂重复定位误差、光照变化及物体纹理差异会引入不可预知的噪声，需通过精密的传感器标定与数据清洗流程才能确保轨迹一致性与动作有效性。

常用场景

经典使用场景

config1-red-blue-green数据集是面向机器人模仿学习与操作技能获取领域的高质量资源，由苏黎世联邦理工学院机器人研究团队借助LeRobot框架采集而成。该数据集聚焦于机械臂对红、蓝、绿三色目标物体的精准拾取与放置操作，通过同步记录六自由度关节位姿动作指令、机器人本体状态变量以及前置摄像头提供的640×480像素RGB视觉流，构建了包含45个完整示范回合、总计7600帧的时空对齐多模态序列。经典使用范式在于利用端到端的行为克隆或逆强化学习算法，从人类演示的轨迹中直接映射视觉观测到连续动作空间，使机器人能够复现色彩区分下的抓取与移位策略。其10Hz采样频率确保了操作动态的细粒度表征，为研究少样本条件下的技能泛化、任务迁移及人机交互提供了规范化的训练与评估基准。

解决学术问题

该数据集精准回应了机器人学习领域长期存在的三大核心挑战：如何从有限的人类演示中高效提取可复用的操作先验知识，如何实现视觉模态与运动控制之间的强健映射关系，以及如何在多任务场景下保持策略的区分性与鲁棒性。通过提供标准化的红、蓝、绿三色对象操作序列，它使得研究者能够系统性地探究色彩视觉特征对抓取策略选择的影响机制，并评估模型在颜色混淆、背景干扰等变异条件下的泛化能力。其意义在于填补了小型化、高保真的色彩敏感型操作数据集空白，为后续开发轻量级模仿学习架构、验证注意力机制在视觉运动控制中的有效性，以及推动从仿真到实体部署的迁移测试提供了不可或缺的基准平台，进而加速了认知机器人学与生成式决策模型的交叉融合。

实际应用

在实际应用层面，config1-red-blue-green数据集所承载的三色目标操作技能，直接对应了工业分拣、仓储物流和精准农业场景中的色彩分类抓取需求。例如，在电子元件装配线上，机械臂可借助该数据集训练出的策略，区分不同颜色标识的零件并进行准确安放；在智能零售领域，机器人通过对红色、蓝色和绿色商品的视觉辨识，能够执行自动化的商品打包与货架整理任务。此外，该数据集还被应用于家庭服务机器人领域，使其具备识别彩色餐具并进行餐桌布置的能力。由于数据采集环境与真实工业场景高度相近，且包含丰富的关节运动与视觉信息，其训练出的策略能以较低成本迁移至实体机器人，加速了从实验室模拟到工厂车间的技术落地进程。

数据集最近研究