so101-lift-cube-60

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/igor-saprygin/so101-lift-cube-60

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为机器人学任务设计的，特别针对so101_follower机器人类型。数据集包含60个片段，总计2710帧，涉及1个任务。数据以parquet文件形式存储，总大小为300MB（数据文件100MB，视频文件200MB）。数据集包含丰富的特征，如动作和观察状态（各6个浮点数值），以及来自手腕和前摄像头的视频观察（分辨率480x640，AV1编码，30fps）。视频数据不包含音频。数据集还包含时间戳、帧索引、片段索引等辅助信息。适用于机器人控制、行为模仿等研究场景。

创建时间：

2026-04-27

原始信息汇总

数据集概述

so101-lift-cube-60 是一个用于机器人操作的 数据集，基于 LeRobot 框架创建。该数据集记录了 so101_follower 机器人执行 提升立方体 任务的动作和观测数据，共包含 60 个片段。

数据集规格

总片段数: 60
总帧数: 2,710
总任务数: 1
帧率 (FPS): 30
数据文件大小: 100 MB (Parquet 格式)
视频文件大小: 200 MB (MP4 格式)
分块大小: 1,000 帧/块
数据划分: 全部 60 个片段用于训练 (train: 0:60)

数据结构

数据集包含以下特征（features）:

动作 (`action`)

数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态 (`observation.state`)

数据类型: float32
形状: [6]
维度名称: 与动作相同，表示机器人各关节位置

观测图像 (`observation.images`)

observation.images.wrist: 腕部摄像头图像
- 分辨率: 480×640 像素，3 通道 (RGB)
- 编码: AV1，帧率 30 FPS
observation.images.front: 前方摄像头图像
- 分辨率: 480×640 像素，3 通道 (RGB)
- 编码: AV1，帧率 30 FPS

其他字段

timestamp (float32): 时间戳
frame_index (int64): 帧索引
episode_index (int64): 片段索引
index (int64): 全局索引
task_index (int64): 任务索引

数据存储

数据文件: 存储在 data/ 目录下，格式为 chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: 存储在 videos/ 目录下，格式为 videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

许可证

许可证类型: Apache-2.0

搜集汇总

数据集介绍

构建方式

so101-lift-cube-60数据集基于LeRobot框架构建，专为机器人操作任务设计。该数据集通过so101_follower机器人平台采集，共包含60个演示片段，总计2710帧时序数据，采样频率为30帧/秒。数据以Parquet格式存储动作与状态信息，并同步记录来自腕部与前方两个视角的640×480分辨率视频流，编码采用AV1格式。所有数据被划分为单一训练集，并按照1000帧大小分块组织，便于高效加载与处理。

使用方法

用户可通过LeRobot库直接加载此数据集，利用其提供的Python接口访问动作、状态与图像序列。具体使用时，需依据默认配置读取Parquet数据文件与MP4视频文件，并按照训练集划分（0至60片段）进行模型训练。数据集支持序列化采样，可生成固定长度的训练批次，适用于基于Transformer或LSTM的机器人策略学习。建议结合LeRobot的评估工具对学习到的策略进行仿真或实际平台测试。

背景与挑战

背景概述

在机器人学习领域，基于模仿学习的技能获取方法近年来备受关注，尤其在高精度操控任务中展现出巨大潜力。so101-lift-cube-60数据集由HuggingFace社区基于LeRobot框架创建，旨在为机器人六自由度机械臂的物体抬升任务提供标准化的训练与评估基准。该数据集共收录60个演示片段的2710帧数据，涵盖肩部、肘部、腕部及夹爪的关节状态与动作序列，同时配备腕部和前方两个视角的640×480分辨率视频流，为多模态模仿学习提供了丰富的观测信息。其设计聚焦于将方块从初始位置稳定抬升的单一任务，通过统一的数据结构与Apache-2.0许可协议，降低了机器人领域研究者复现与比较的门槛，推动了低成本机械臂操控算法的可重复性研究与社区协作。

当前挑战

该数据集所面临的挑战主要体现在领域问题与构建过程两个层面。在领域问题层面，机器人操控的模仿学习长期受困于高精度轨迹泛化能力不足，现有方法常因观测噪声或动作偏差导致任务失败，而so101-lift-cube-60数据集仅包含单一任务和60个演示片段，样本规模有限，难以支撑复杂场景下的鲁棒策略学习。在构建过程层面，数据采集需依赖so101_follower机器人平台的精确标定与重复演示一致性，确保60个片段中夹爪与机械臂关节角度的同步记录；同时，640×480视频流需在30帧/秒下稳定编码为AV1格式，平衡存储效率与视觉质量，而多模态数据(状态、图像、时序)的融合对齐对数据管道提出了严苛的工程要求，任何时序错位均会损害下游模型的训练效果。

常用场景

经典使用场景

在机器人操作与模仿学习的交叉领域中，so101-lift-cube-60数据集为研究机械臂抓取与放置动作提供了精密的基准测试平台。该数据集源自LeRobot框架，记录了SO-100型机械臂执行‘提起立方体’这一任务的全过程，包含60个完整演示回合、2710帧时间序列数据以及同步录制的腕部和前部视角视频。其结构化设计整合了六维关节空间状态与动作信息，使得研究者能够轻松构建从感知到动作的端到端学习模型，尤其适用于行为克隆、逆强化学习等模仿学习范式的验证与比较。数据集以固定帧率呈现的连续操作片段，为分析精细操作中的轨迹规划与力控策略奠定了数据基础。

解决学术问题

该数据集的核心贡献在于填补了开源机器人领域针对单一精细操作任务的高质量演示数据空白，解决了可复现性不足与数据采集成本高昂等关键学术瓶颈。传统机器人学习研究常受困于实验环境差异导致的评测结果难以横向对比，而so101-lift-cube-60通过标准化的数据格式与统一的机器人硬件架构，为算法提供了公平的竞技场。研究者可借此深入探讨少样本学习情境下策略泛化的边界，或分析多模态传感器融合（如视觉与关节角度信号）对操作成功率的影响。该数据集的发布推动了从理论模型到实际控制策略的验证闭环形成，显著加速了机器人技能习得领域的知识累积。

实际应用

在智能制造与自动化仓储等实际落地场景中，so101-lift-cube-60所蕴含的机械臂精细操控能力具有直接转化价值。基于该数据集训练的模型能够赋能工业机器人完成高精度物料拾取、零件装配等重复性任务，减少对人工示教的依赖。数据集中的腕部视觉流可迁移至分拣系统的实时目标识别与定位模块，而六维动作空间则为力控装配中的阻抗控制策略提供了离线优化参考。此外，其轻量化结构（仅100MB数据与200MB视频）使其易于部署在边缘计算设备上，为中小型企业实现低成本机器人自动化升级提供了可行路径。

数据集最近研究