1-mj-three_boxes

Hugging Face2025-06-15 更新2025-06-16 收录

下载链接：

https://huggingface.co/datasets/LeRobot-worldwide-hackathon/1-mj-three_boxes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人技术相关的数据集，包含了多个剧集和视频，每个视频包含多帧，用于机器人技术的训练和研究。数据集以Parquet文件格式存储，并包含了观察状态、动作、奖励、是否完成、惩罚、图像以及时间戳等特征信息。

创建时间：

2025-06-15

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
代码库版本: v2.1

数据集结构

总集数: 2
总帧数: 192
总任务数: 1
总视频数: 4
总块数: 1
块大小: 1000
帧率: 10 fps
训练集划分: 0:2

数据路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

observation.state:
- 数据类型: float32
- 形状: [18]
action:
- 数据类型: float32
- 形状: [4]
- 名称: delta_x_ee, delta_y_ee, delta_z_ee, gripper_delta
next.reward:
- 数据类型: float32
- 形状: [1]
next.done:
- 数据类型: bool
- 形状: [1]
complementary_info.discrete_penalty:
- 数据类型: float32
- 形状: [1]
- 名称: discrete_penalty
observation.images.front:
- 数据类型: video
- 形状: [3, 128, 128]
- 名称: channels, height, width
- 视频信息:
  - 高度: 128
  - 宽度: 128
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 10 fps
  - 通道数: 3
  - 是否有音频: false
observation.images.wrist:
- 数据类型: video
- 形状: [3, 128, 128]
- 名称: channels, height, width
- 视频信息:
  - 高度: 128
  - 宽度: 128
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 10 fps
  - 通道数: 3
  - 是否有音频: false
timestamp:
- 数据类型: float32
- 形状: [1]
frame_index:
- 数据类型: int64
- 形状: [1]
episode_index:
- 数据类型: int64
- 形状: [1]
index:
- 数据类型: int64
- 形状: [1]
task_index:
- 数据类型: int64
- 形状: [1]

搜集汇总

数据集介绍

构建方式

该数据集依托LeRobot开源框架构建，采用模块化数据采集策略，通过机器人操作任务生成多模态时序数据。技术实现上以10fps采样率捕获192帧操作序列，结构化存储为Parquet格式，包含2个完整操作片段。数据采集方案同步记录18维状态向量、4维动作指令及双视角视觉信息，并通过时间戳实现多源数据精准对齐。

特点

数据集呈现机器人操作任务的立体化特征，其核心价值在于融合了机械臂末端执行器运动轨迹与双摄像头视觉反馈。前视与腕部摄像头以128×128分辨率采集RGB视频流，配合18维状态观测空间和包含x/y/z位移及夹爪控制的4维连续动作空间。特别设计的离散惩罚指标为强化学习训练提供了细粒度反馈机制，时间戳与帧索引则确保时序建模的完整性。

使用方法

该数据集适用于机器人模仿学习与策略优化研究，研究者可通过加载Parquet文件访问结构化操作序列。典型使用流程包括：解析状态观测向量重构机器人位形，解码AV1格式视频流获取视觉上下文，利用动作空间数据训练控制策略。训练集已预分割为完整操作片段，配合奖励信号与终止标志可实现端到端强化学习训练。视频数据需通过专用解码器处理，建议结合PyTorch或TensorFlow框架构建时空联合建模架构。

背景与挑战

背景概述

1-mj-three_boxes数据集由LeRobot项目团队构建，专注于机器人技术领域的研究与应用。该数据集通过记录机器人操作过程中的多模态数据，包括状态观测、动作执行及环境反馈，为机器人学习与控制算法的开发提供了重要支持。数据集采用Apache-2.0开源协议，包含192帧数据，覆盖1个任务，并以10帧每秒的频率采集机器人前视与腕部摄像头的视频数据。尽管数据集的具体创建时间与研究团队尚未详细披露，但其结构化的数据组织与丰富的特征标注为机器人行为模仿与强化学习研究提供了宝贵资源。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，在解决机器人操作任务时，如何高效利用有限的数据量（仅2个完整操作片段）训练出泛化能力强的模型，是算法设计中的核心难题；其二，数据构建过程中需克服多传感器数据同步、高维视频数据压缩存储等技术障碍，尤其是128x128分辨率的双视角视频流与18维状态数据的精确对齐问题。此外，数据集中任务类型的单一性（仅包含1类任务）也对后续研究的扩展性提出了挑战。

常用场景

经典使用场景

在机器人控制领域，1-mj-three_boxes数据集通过记录机械臂操作三个盒子的动作序列和环境反馈，为强化学习算法的训练提供了丰富的实验场景。该数据集包含多视角视频、状态观测和动作指令，能够模拟真实世界中的物体抓取和放置任务，成为研究机器人操作技能的重要基准。

实际应用

在工业自动化场景中，该数据集可直接应用于物流分拣系统的算法开发，通过迁移学习将仿真环境中训练的模型部署到实体机械臂。数据集包含的腕部摄像头和正面摄像头数据，为研究多模态感知在物体精确定位中的应用提供了真实案例，已成功用于智能仓储机器人抓取系统的原型开发。

衍生相关工作

基于该数据集的特性，研究者们开发了多种深度强化学习框架，包括结合视觉Transformer的状态表示方法，以及基于元学习的多任务迁移算法。在LeRobot生态系统中，该数据集被广泛用于验证分层强化学习架构的有效性，催生了如《Vision-Based Robotic Manipulation with Auxiliary Rewards》等标志性研究成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集