so101-lift-cube-smoke

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/igor-saprygin/so101-lift-cube-smoke

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，专注于机器人技术领域，采用apache-2.0许可证。数据集包含3个总剧集，128帧，1个任务，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据结构包括动作、观测状态（如机械臂各关节位置）、时间戳、帧索引等字段，以及来自腕部和前部的视频观测（480x640分辨率，3通道，AV1编码）。数据以parquet格式存储，视频以mp4格式存储。适用于机器人控制、行为学习等任务。

创建时间：

2026-04-27

原始信息汇总

数据集概述

该数据集是一个用于机器人学习的运动规划数据集，专注于“抓取立方体并产生烟雾”的任务。数据由 LeRobot 框架收集和处理。

基本信息

许可证：Apache-2.0
任务类型：机器人学 (Robotics)
标签：LeRobot
创建工具：LeRobot

数据集规模

总片段数（episodes）：3
总帧数（frames）：128
总任务数（tasks）：1
数据文件大小：100 MB
视频文件大小：200 MB
帧率（FPS）：30
数据分块：每块包含 1000 帧
训练/测试划分：全部 3 个片段用于训练（索引 0:3）

机器人类型

机器人：SO-100 Follower（so101_follower）

数据特征

数据集包含以下特征：

动作 (action)：6 维向量（肩部旋转、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置）
观察状态 (observation.state)：6 维向量（与动作相同的关节位置）
观察图像 (observation.images)：
- wrist：腕部摄像头，分辨率 480x640，3 通道，AV1 编码，30 FPS
- front：前部摄像头，分辨率 480x640，3 通道，AV1 编码，30 FPS
时间戳 (timestamp)：Float32 类型
帧索引 (frame_index)：Int64 类型
片段索引 (episode_index)：Int64 类型
数据索引 (index)：Int64 类型
任务索引 (task_index)：Int64 类型

数据存储格式

数据路径：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

搜集汇总

数据集介绍

构建方式

SO101-Lift-Cube-Smoke数据集基于LeRobot框架构建，旨在为机器人操作任务提供标准化的训练数据。数据采集过程中，通过SO101跟随式机器人执行“抓取并提升立方体”这一单一任务，共录制3个完整回合（episodes），累计128帧时序数据。机器人位姿信息以6维向量表示，涵盖肩部、肘部、腕部及夹爪的关节位置，同时利用前端与腕部两个视角的摄像头采集480×640分辨率的彩色视频流，并以30帧/秒的AV1编码格式存储。所有观测与动作数据被整理为Parquet格式文件，按分块索引组织，便于高效读取与分布式处理。

特点

该数据集具有鲜明的实操导向特性：其一，任务聚焦于单一工业场景——提升立方体，目标明确且便于复现；其二，数据模态丰富，包含6维关节状态、6维动作指令以及多视角视觉流，为模仿学习与行为克隆提供了充足的输入信号；其三，所有时序数据均严格对齐时间戳与帧索引，保障了训练样本的因果一致性；其四，数据集的规模虽小（128帧），但覆盖了完整的操作轨迹，适合作为概念验证与小样本学习的基准资源。

使用方法

数据集通过HuggingFace发布的LeRobot库进行加载，用户只需指定`so101-lift-cube-smoke`名称并调用相应数据加载函数，即可获取分好训练集（全部3个回合）的观察、动作及元数据。每一帧数据以字典形式返回，提供`observation.state`、`observation.images.wrist`与`observation.images.front`作为观测，`action`作为目标标签。开发者可利用`data/*/*.parquet`路径模式读取底层Parquet文件，或直接利用LeRobot内置的迭代器与数据集API，快速构建基于循环神经网络或Transformer的模仿学习流水线。

背景与挑战

背景概述

在机器人学习领域，模仿学习通过示教数据驱动技能获取，已成为解决复杂操作任务的核心范式。该数据集依托LeRobot框架构建，聚焦于so101型机器人臂执行方块抬升与烟雾模拟的精细化操控任务。创建于2024年，由Hugging Face社区主导，针对单一任务采集了3个完整演示片段，总帧数达128帧，并配备每秒30帧的双视角视觉观测（腕部与前方摄像头）及6维关节动作状态记录。数据集以Apache-2.0协议开源，旨在推动轻量级、可复现的机器人操控研究，为多模态感知与动作映射的联合建模提供标准化基准。其简洁的架构设计（单一任务、有限数据量）对验证小样本模仿学习算法的效率与泛化能力具有独特价值，成为连接仿真与真实物理世界操作的桥梁。

当前挑战

数据集当前面临的核心挑战包括：1）小样本学习困境：仅含3个演示片段，对算法从极少量轨迹中提炼稳健操作策略的能力提出严苛要求，易导致过拟合或对噪声敏感；2）高维视觉-运动耦合：需同时处理480×640分辨率的双视角视频流与连续动作空间（6自由度关节控制），在多模态时间序列对齐中易引入误差；3）物理实体可迁移性：数据源自特定so101型机器人，在关节限位、动力学参数及视觉传感器校准上具有固有关联，模型向不同硬件平台或环境（如烟雾浓度变化）迁移时泛化性能显著衰减；4）数据稀疏性导致的状态覆盖不足：128帧数难以刻画操作全过程中的边界状态（如抓取失败或障碍物意外干涉），限制了对鲁棒控制策略的学习能力。

常用场景

经典使用场景

在机器人学习与操作领域，so101-lift-cube-smoke数据集凭借其精细的运动轨迹和视觉观测记录，成为训练机械臂执行抓取与搬运任务的经典资源。该数据集通过so101_follower机器人平台，采集了128帧、3个完整episode的高频数据，包含肩部、肘部、腕部及夹爪的六维关节状态与两个摄像头视角的同步视频。研究者通常将其作为模仿学习或强化学习的基准，用于验证从观察空间到动作空间的映射能力，尤其是在需要高精度末端执行器控制的场景中。

实际应用

在实际部署中，该数据集推动的算法可应用于工业装配线的轻量级抓取任务，如电子元器件分拣或小型物料的码放。其视频与状态联合标注的形式，也为远程操作员监控与混合控制系统的开发提供了训练素材。在服务机器人领域，基于该数据训练的机械臂能够初具模仿能力，执行诸如递送小物体或整理桌面的日常动作。

衍生相关工作

该数据集衍生了多项关于运动规划与表征学习的前沿工作。研究者以其为测试床，提出了基于扩散策略的动作序列生成方法，将三维机械臂轨迹建模为可微生成过程；另有一些工作聚焦于跨本体迁移，利用so101的关节空间表示，测试策略在异型机器人上的零样本泛化能力。此外，该数据集中高帧率视频与低频状态的对齐挑战，也催生了时序对齐与缺失帧插补的相关研究。

以上内容由遇见数据集搜集并总结生成