so101-lift-cube

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/igor-saprygin/so101-lift-cube

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学相关的数据集，使用LeRobot工具创建。数据集包含200个episodes，总计30,000帧数据，存储为parquet格式文件，总数据量为100MB，视频文件大小为200MB。数据以30fps的帧率采集，包含来自三个不同视角（顶部、腕部、侧面）的视频观察数据，每个视频的分辨率为480x640，编码格式为av1。此外，数据集还包括6维的状态观察数据、6维的动作数据、时间戳、帧索引、episode索引等元数据。数据集适用于机器人控制、行为克隆、强化学习等任务。数据按chunk组织，每个chunk包含1000帧数据。

创建时间：

2026-04-01

原始信息汇总

数据集概述

基本信息

数据集名称： so101-lift-cube
许可协议： Apache 2.0
任务类别： 机器人学
标签： LeRobot
创建工具： 使用LeRobot创建

数据集规模与结构

总情节数： 200
总帧数： 30000
总任务数： 1
块大小： 1000
数据文件总大小： 100 MB
视频文件总大小： 200 MB
帧率： 30 FPS
数据分割： 全部数据用于训练（索引0至200）
数据文件路径模式： data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式： videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

数据集包含以下特征字段：

观测数据

图像观测
- observation.images.top：顶部摄像头视频数据
  - 数据类型：视频
  - 形状：[3, 480, 640] (通道，高度，宽度)
  - 视频信息：高度480像素，宽度640像素，编码AV1，像素格式yuv420p，非深度图，30 FPS，3通道，无音频。
- observation.images.wrist：腕部摄像头视频数据
  - 数据类型：视频
  - 形状：[3, 480, 640] (通道，高度，宽度)
  - 视频信息：高度480像素，宽度640像素，编码AV1，像素格式yuv420p，非深度图，30 FPS，3通道，无音频。
- observation.images.side：侧面摄像头视频数据
  - 数据类型：视频
  - 形状：[3, 480, 640] (通道，高度，宽度)
  - 视频信息：高度480像素，宽度640像素，编码AV1，像素格式yuv420p，非深度图，30 FPS，3通道，无音频。
状态观测
- observation.state：机器人状态
  - 数据类型：float32
  - 形状：[6]

动作与元数据

动作
- action：机器人动作
  - 数据类型：float32
  - 形状：[6]
时间与索引
- timestamp：时间戳
  - 数据类型：float32
  - 形状：[1]
- frame_index：帧索引
  - 数据类型：int64
  - 形状：[1]
- episode_index：情节索引
  - 数据类型：int64
  - 形状：[1]
- index：索引
  - 数据类型：int64
  - 形状：[1]
- task_index：任务索引
  - 数据类型：int64
  - 形状：[1]

附加信息

代码库版本： v3.0
机器人类型： so101
主页： [More Information Needed]
论文： [More Information Needed]
引用格式： [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作学习领域，数据集的构建往往依赖于真实世界的物理交互记录。so101-lift-cube数据集通过LeRobot平台，利用型号为so101的机器人执行单一的立方体抓取任务，系统采集了200个完整操作片段，共计30000帧数据。数据以分块形式组织，每块包含1000个数据点，并以Parquet格式高效存储，同时配有从顶部、腕部和侧面视角采集的同步视频流，帧率为30fps，共同构成了一个结构化的多模态机器人操作数据集。

特点

该数据集的核心特点在于其丰富的多模态观测信息与精确的动作标注。观测部分不仅包含机器人的6维状态向量，更整合了三个不同视角的高清RGB视频流，每路视频分辨率均为640x480，采用AV1编码，为模型提供了全面的环境感知上下文。动作空间同样以6维浮点向量表示，与观测数据在时间上严格对齐。数据集结构清晰，通过帧索引、片段索引等元数据确保了时序完整性，且所有数据均归一化为训练集，便于直接用于模仿学习或强化学习算法的开发与验证。

使用方法

研究人员可利用该数据集进行机器人视觉运动策略的学习。典型的使用流程是从指定的Parquet文件路径加载数据，这些文件包含了观测、动作及时间戳等关键字段。多路视频数据可通过关联的视频路径独立访问。由于数据集已预先分割，用户可直接将其用于模型训练，例如构建端到端的策略网络，将多视角图像观测与机器人状态作为输入，预测相应的关节动作。数据的分块存储设计也支持流式加载，适用于处理大规模序列数据的学习任务。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的研究亟需高质量、大规模的真实世界交互数据集以推动算法泛化能力的突破。so101-lift-cube数据集应运而生，它由HuggingFace的LeRobot项目团队创建，专注于机械臂操作任务，具体为拾取立方体这一基础但具代表性的动作。该数据集收录了200个完整交互片段，总计30000帧多视角视觉观测与对应的机器人状态及动作数据，旨在为机器人操作策略的学习提供丰富的监督信号。其构建依托先进的LeRobot开源框架，体现了当前机器人学习社区对标准化、可复现数据集的迫切需求，有望加速端到端机器人控制模型的研发进程。

当前挑战

该数据集致力于解决机器人操作任务中策略泛化的核心挑战，即如何让模型从有限的演示数据中学习到可迁移至新环境或新物体的稳健抓取与操控技能。具体而言，挑战体现在从高维视觉输入中精确理解物体姿态、机械手状态与动作间的复杂映射关系。在构建层面，数据采集过程面临多重困难：确保多摄像头（顶部、腕部、侧面）视频流的高精度时间同步与空间标定是一大技术难点；同时，在真实物理环境中进行大规模、重复性任务演示，需克服机器人硬件稳定性、动作一致性以及数据标注自动化等方面的障碍。此外，将原始传感器数据高效编码为紧凑、规范的格式以供机器学习模型使用，也对数据处理流水线提出了严峻考验。

常用场景

经典使用场景

在机器人操作学习领域，so101-lift-cube数据集以其多视角视觉观测与状态动作对的丰富记录，为模仿学习与强化学习算法的训练提供了典型范例。该数据集通过顶部、腕部和侧面三个摄像头捕捉机器人执行拾取立方体任务的连续视频帧，结合六维状态与动作向量，构建了端到端策略学习的标准环境。研究者可借此训练神经网络从原始像素输入直接映射到关节控制指令，验证算法在复杂物理交互中的泛化能力。

衍生相关工作

围绕该数据集衍生的研究多集中于视觉运动策略的改进与泛化。例如，基于时空注意力机制的模仿学习框架可利用其多视角视频序列提升动作预测精度；元学习方案则通过其大量任务片段探索快速适应新物体的能力。此外，该数据集常被纳入机器人基准测试套件，用于评估离线强化学习与行为克隆算法在连续控制任务中的性能，催生了多个开源机器人学习库的集成与优化。

数据集最近研究