SO-101-pick-and-place-2

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/pavelsimo/SO-101-pick-and-place-2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，采用Apache 2.0许可证，属于机器人学类别。数据集包含63个总片段，23,875帧，1个总任务，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括训练分割（0:63），数据以parquet文件格式存储，视频以mp4格式存储。特征包括动作和观察状态（各6个浮点型数据），前部和腕部摄像头图像（480x640x3，AV1编码，30fps），以及时间戳、帧索引、片段索引、索引和任务索引等元数据。适用于机器人控制和视觉任务。

创建时间：

2026-02-12

原始信息汇总

数据集概述

基本信息

数据集名称: SO-101-pick-and-place-2
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学

数据集规模

总情节数: 63
总帧数: 23875
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据块大小: 1000
代码库版本: v3.0

数据结构

数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据划分: 全部数据（索引0:63）用于训练

数据特征

动作空间

特征名: action
数据类型: float32
形状: [6]
维度名称: ["shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos"]

状态观测

特征名: observation.state
数据类型: float32
形状: [6]
维度名称: ["shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos"]

图像观测

前视摄像头

特征名: observation.images.front
数据类型: video
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

腕部摄像头

特征名: observation.images.wrist
数据类型: video
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

元数据特征

时间戳: timestamp (float32, 形状[1])
帧索引: frame_index (int64, 形状[1])
情节索引: episode_index (int64, 形状[1])
索引: index (int64, 形状[1])
任务索引: task_index (int64, 形状[1])

机器人信息

机器人类型: so101_follower

补充说明

主页: 信息缺失
论文: 信息缺失
引用格式: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于推动模仿学习与强化学习算法的进展至关重要。SO-101-pick-and-place-2数据集依托LeRobot开源框架构建，通过记录真实机器人执行拾放任务的交互过程而形成。该数据集包含63个完整任务片段，总计23875帧数据，以30帧每秒的速率采集，并以分块Parquet文件格式高效存储，确保了数据的时序完整性与访问效率。

特点

该数据集在机器人状态感知与动作控制方面展现出显著的多模态特性。它不仅提供了机器人六自由度关节的位置状态与动作指令，还同步收录了来自前视与腕部摄像头的视觉观测视频，分辨率均为640x480，编码为AV1格式。这种结构化的特征设计，将连续控制信号与高维视觉信息紧密结合，为端到端策略学习提供了丰富的时空上下文。

使用方法

研究人员可利用该数据集进行机器人技能学习的训练与评估。数据以训练集划分，可直接加载用于行为克隆或离线强化学习等算法。通过解析Parquet文件中的状态、动作及对应图像序列，可以重构任务执行轨迹。结合LeRobot工具链，用户能够便捷地实现数据可视化、轨迹回放以及模型训练流程，加速机器人抓取与放置相关研究的迭代过程。

背景与挑战

背景概述

SO-101-pick-and-place-2数据集是机器人操作领域的一项专业数据资源，专注于拾取与放置任务的示范学习。该数据集由HuggingFace的LeRobot项目团队构建，旨在为机器人模仿学习与策略优化提供高质量的真实世界交互轨迹。数据集收录了63个完整操作片段，涵盖23875帧多模态观测数据，包括机械臂关节状态、前视与腕部摄像头视频流，为研究机器人精细操作与感知决策融合提供了关键实验基础。其结构化特征设计反映了当前机器人学习领域对可扩展、标准化数据集的迫切需求，推动了从仿真到真实环境迁移的技术探索。

当前挑战

该数据集致力于解决机器人拾取与放置任务中的示范学习挑战，其核心难点在于如何从有限的人类示范中泛化出鲁棒的操作策略，以应对物体姿态多样性、环境动态变化及机械臂控制不确定性。构建过程中的挑战主要体现在多模态数据同步与对齐的复杂性，需确保关节状态、视觉视频流与时间戳的高精度匹配；同时，数据采集需在真实物理环境中进行，涉及硬件校准、轨迹录制稳定性以及大规模存储与处理的工程难题。此外，数据标注的缺失与任务多样性不足，也限制了其在复杂长时序决策场景中的应用潜力。

常用场景

经典使用场景

在机器人操作领域，SO-101-pick-and-place-2数据集为模仿学习与强化学习算法的训练与评估提供了关键支持。该数据集通过记录SO101机械臂执行抓取放置任务时的多模态观测数据，包括关节状态、前视与腕部摄像头视频流，使得研究者能够构建端到端的控制策略模型。经典使用场景涉及利用这些时序数据训练神经网络，以预测机械臂的动作指令，从而实现从视觉输入到运动输出的映射，为机器人自主执行精细操作任务奠定基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在视觉运动策略学习与多模态表示学习领域。例如，研究者利用其视频与状态数据开发了基于Transformer的序列模型，用于预测连续机器人动作。同时，该数据集也常被用作基准，评估不同模仿学习架构在真实机器人任务上的样本效率与泛化能力，推动了如行为克隆、逆强化学习等方法的改进与创新。

数据集最近研究