joinnecto/so101_pick_place

Name: joinnecto/so101_pick_place
Creator: joinnecto
Published: 2026-05-01 01:20:09
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/joinnecto/so101_pick_place

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，属于机器人领域。数据集包含机器人状态观测（6个关节位置）、动作（6个关节位置）、主摄像头和腕部摄像头的视频数据（480x640分辨率，30fps）等多种特征。数据集共包含30个episodes，26743帧数据，视频采用h264编码，yuv420p像素格式。机器人类型为so101_follower。

This dataset was created by LeRobot and belongs to the robotics domain. It contains various features including robot state observations (6 joint positions), actions (6 joint positions), video data from main and wrist cameras (480x640 resolution, 30fps). The dataset consists of 30 episodes with 26743 frames, videos are encoded in h264 with yuv420p pixel format. The robot type is so101_follower.

提供机构：

joinnecto

搜集汇总

数据集介绍

构建方式

so101_pick_place数据集由Hugging Face的LeRobot框架构建，通过遥操作（teleop）方式采集。数据集共包含30个示范片段（episodes），总计26743帧图像和对应的机器人状态记录。数据以Parquet格式存储，并附带视频文件，其中主摄像头和腕部摄像头的图像均以H.264编码的高清视频保存，帧率为30 FPS。每个片段记录了SO101机械臂执行抓取与放置任务时的完整轨迹，包括关节角度、动作指令及时间戳等信息。

特点

该数据集的核心特点在于其高保真度与结构化设计。数据特征包含6维关节状态（如肩部、肘部、腕部及夹爪位置）与对应的6维动作空间，可支持模仿学习等算法训练。视觉信息来自两个摄像头（主视角和腕部视角），均为640×480分辨率的彩色图像。数据集规模适中，视频文件约200 MB，数据文件约100 MB，适合在消费级硬件上进行实验。此外，数据已被自动划分为训练集，便于直接用于机器人学习任务。

使用方法

数据集可通过LeRobot库便捷加载。用户需安装LeRobot环境后，使用`lerobot.Dataset`接口读取本地存储的Parquet和视频文件。加载时需指定数据集路径和配置（如默认配置`default`），并可通过`episode_index`字段索引不同示范片段。数据集兼容PyTorch等常见深度学习框架，适合用于训练基于视觉的运动策略模型，如行为克隆或扩散策略等。数据已按标准格式存储，可直接用于模型训练与评估。

背景与挑战

背景概述

在机器人操作领域，模仿学习与遥操作数据的结合为技能获取提供了新范式。so101_pick_place数据集由Hugging Face LeRobot团队创建，发布于2024年，围绕so101_follower机器人平台构建，核心解决“抓取与放置”（pick and place）这一基础操作任务。该数据集包含30个演示片段，总计26743帧图像与对应的关节状态、动作序列，通过30Hz的相机（主视角与腕部视角）以及6维关节控制数据（肩部、肘部、腕部及夹爪位置）记录遥操作过程。其发布填补了轻量级桌面机械臂在标准化pick-and-place任务场景下的数据空白，为机器人学习社区提供了高频率、多模态的训练素材，推动了端到端策略与控制泛化能力的研究进展。

当前挑战

该数据集面临的挑战主要体现在领域问题与构建过程两方面。从领域问题看，pick-and-place任务在非结构化环境中因物体形状、材质与位置的随机性，导致模仿学习策略难以泛化至新场景，且单一任务（30个片段）的样本量有限，易引发过拟合与鲁棒性不足的问题。从构建过程看，遥操作示范需精确同步多视图视频（640×480分辨率，h264编码）与6维关节序列，手动录制时操作者肢体遮挡、光照变化及机械臂动力学误差均可能引入噪声；此外，数据存储采用parquet与mp4混合格式，在合并视频流与状态序列时需处理时间戳对齐与帧率一致性，增加了预处理阶段的工程复杂度。

常用场景

经典使用场景

so101_pick_place数据集作为机器人操作领域的核心资源，专为学习与复现抓取-放置任务而设计。通过遥操作采集的30个完整回合、逾两万六千帧的高保真数据，同步记录了六自由度关节状态、夹爪控制信号及主副双视角视频流（主视角与腕部视角）。该数据集最经典的应用在于训练基于模仿学习的策略模型，使机械臂能够从人类演示中自主习得精确的物体拾取与空间转移技能，成为验证具身智能体运动规划能力的基准平台。

实际应用

在工业与生活场景中，so101_pick_place数据集驱动的模型可直接应用于仓储分拣、零部件装配以及实验室自动化操作等重复性抓取任务。借助遥操作采集的灵活特性，已实践于半结构化环境中的精密物料处理，例如电子元件在料盘间的转移或医疗器皿的定向摆放。其双视觉流架构允许算法结合全局环境感知与局部腕部精细观察，显著提升了在遮挡、光照变化等复杂条件下的操作鲁棒性，为下一代柔性生产线的快速部署提供了可靠的数据驱动解决方案。

衍生相关工作

基于so101_pick_place数据集，衍生了大量关键技术突破，包括但不限于扩散策略在机器人操作中的首次成功适配、基于Transformer的时序集成模型，以及结合状态空间模型的跨任务高效微调框架。代表性工作如LeRobot开源生态中的行为克隆基线、隐式策略优化以及基于能量函数的策略模型，均以该数据集作为核心验证基准。这些成果不仅巩固了模仿学习在精密操作中的优势，更催生了面向多任务泛化的统一策略架构，显著加速了从单一技能学习到复杂操作技能库的构建进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集