lerobot-dataset

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/taetae77/lerobot-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由 LeRobot 创建，专注于机器人技术领域。数据集包含 39 个总集，17032 帧数据，数据文件大小为 100MB，视频文件大小为 200MB，帧率为 30fps。数据集的结构包括动作、观察状态、图像观察（前视图和顶视图）、时间戳、帧索引、集索引等字段。动作和观察状态字段包含 6 个浮点数值，分别对应机器人关节的位置。图像观察字段为视频格式，分辨率为 480x640，3 通道，编码为 av1。数据集适用于机器人控制和视觉任务，许可证为 Apache-2.0。

创建时间：

2026-02-19

原始信息汇总

数据集概述

基本信息

数据集名称: lerobot-dataset
托管地址: https://huggingface.co/datasets/taetae77/lerobot-dataset
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学

数据集规模与结构

总情节数: 39
总帧数: 17032
总任务数: 1
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
数据分割: 全部数据（0:39）用于训练
代码库版本: v3.0
机器人类型: so_follower

数据文件组织

数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作

数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态

数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像（前视）

数据类型: video
形状: [480, 640, 3]
维度名称: height, width, channels
视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

观测图像（顶视）

数据类型: video
形状: [480, 640, 3]
维度名称: height, width, channels
视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

元数据

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
情节索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

补充说明

主页: 信息缺失
论文: 信息缺失
引用格式: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于算法训练至关重要。lerobot-dataset依托LeRobot平台构建，通过采集真实机器人交互数据形成结构化记录。该数据集包含39个完整交互片段，总计17032帧数据，以30帧每秒的速率捕捉机器人动作与环境反馈。数据以分块形式存储于Parquet文件中，每块约1000帧，便于高效读取与处理，同时配套视频文件以AV1编码保存，确保视觉信息的完整性与压缩效率。

特点

该数据集在机器人控制与感知研究中展现出独特价值。其核心特征在于多模态数据的深度融合，不仅记录了六自由度机械臂的关节位置作为动作指令，还同步提供了相同维度的状态观测值，形成动作-状态的精确对应。视觉层面，数据集包含前置与顶部双视角RGB视频，分辨率均为640x480，为场景理解提供了丰富视角。时序信息通过时间戳与帧索引精确标注，支持序列建模任务，而片段与任务索引则便于针对特定交互场景进行深入分析。

使用方法

研究者可利用该数据集推进机器人模仿学习与行为克隆等方向。数据以标准化格式组织，通过Parquet文件可直接加载结构化特征，包括动作、状态及元数据。配套视频文件可通过指定路径访问，用于视觉表征学习或端到端策略训练。数据集已预设训练划分，涵盖全部39个交互片段，用户可依据帧索引或片段索引提取子序列，进行批量训练或验证。多模态对齐的特性支持联合训练模型，从视觉输入映射到关节控制指令，为现实世界机器人技能学习提供可靠基准。

背景与挑战

背景概述

机器人学习领域长期致力于开发能够适应复杂现实环境的智能体，其中模仿学习与强化学习是核心技术路径。LeRobot数据集由Hugging Face社区于近期创建，旨在为机器人操作任务提供高质量、多模态的演示数据。该数据集聚焦于解决机器人从人类演示中学习精细操作技能的核心研究问题，通过整合关节状态、视觉观测与动作指令，为端到端策略学习提供了结构化基准。其采用Apache 2.0开源协议，体现了开放科学精神，有望推动机器人模仿学习算法的标准化与可复现性研究。

当前挑战

在机器人操作领域，如何从有限的人类演示中泛化出鲁棒且通用的策略是一大难题，涉及高维状态空间理解、动作序列的时序依赖建模以及视觉-运动协调。LeRobot数据集构建过程中面临多源传感器数据同步、大规模视频流高效压缩与存储，以及演示轨迹的噪声过滤等工程挑战。此外，数据规模相对有限，涵盖的任务单一，可能限制算法在多样化场景下的泛化能力评估，需进一步扩展任务范畴与数据多样性以应对复杂现实需求。

常用场景

经典使用场景

在机器人学习领域，lerobot-dataset以其多模态数据特性，为模仿学习算法的训练提供了经典范例。该数据集整合了来自so_follower机器人的关节状态、图像观测与动作指令，涵盖了39个完整任务片段，共计超过17000帧数据。研究者能够利用这些同步记录的状态与视觉信息，构建端到端的策略模型，使机器人通过观察人类演示来学习复杂的操作技能，例如物体抓取与放置。这种数据驱动的范式，显著提升了机器人从演示中泛化行为的能力。

解决学术问题

该数据集有效应对了机器人模仿学习中数据稀缺与多模态对齐的学术挑战。通过提供结构化的关节位置、双视角图像及对应动作标签，它解决了从高维观测空间到低维动作空间的映射难题。其意义在于为基于深度学习的策略学习提供了可复现的基准，促进了模仿学习、视觉伺服控制等方向的方法创新。数据集的存在降低了机器人实验的门槛，使得研究者能够专注于算法设计而非数据采集，加速了领域内知识的积累与传播。

衍生相关工作

围绕lerobot-dataset，已衍生出一系列专注于机器人模仿学习与视觉运动控制的经典研究工作。这些工作通常利用数据集中的多模态序列，开发先进的深度神经网络架构，如时空注意力模型与变分自编码器，以提升策略的鲁棒性与泛化性能。部分研究进一步探索了跨任务的知识迁移与元学习，将数据集作为评估新算法在真实机器人平台上表现的重要基准。这些衍生成果共同推动了数据驱动机器人学向更高效、更智能的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集