so101_pick_place_items

Hugging Face2026-05-12 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/dmowns/so101_pick_place_items

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot平台创建，是一个机器人操作领域的演示数据集，包含机器人执行任务时的多模态记录。数据集由251个独立任务片段组成，总计142,681帧数据，涵盖3种不同的任务类型。数据采用结构化格式存储，主要字段包括：动作指令（控制机器人6个关节的位置，包括肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪）；观测数据（包括机器人相同的6关节状态，以及来自腕部摄像头和前置摄像头的视觉图像，图像分辨率为640x480，RGB三通道）；此外还包含时间戳、帧索引、片段索引、全局索引和任务索引等元数据。所有数据以30帧/秒的速率采集，视频数据采用AV1编码。数据集专门用于训练和评估机器人模仿学习或强化学习模型，特别是涉及视觉感知和关节控制的抓取与放置类任务。数据集仅提供训练集划分，使用的机器人平台类型为so_follower。

This dataset, developed using the LeRobot platform, is a demonstration dataset for the field of robotic manipulation, containing multimodal recordings of robots performing tasks. It comprises 251 independent task segments, with a total of 142,681 frames of data covering 3 distinct task types. The data is stored in a structured format, with its core fields including: - Action commands: Used to control the positions of the robot's six joints, specifically shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, and the gripper; - Observational data: Includes the robot's six-joint states, as well as visual images captured by the wrist camera and front-facing camera. The images have a resolution of 640×480 with three RGB channels; - Additional metadata such as timestamps, frame indices, segment indices, global indices, and task indices. All data is collected at a rate of 30 frames per second, and the video data is encoded using the AV1 codec. This dataset is specifically intended for training and evaluating robotic imitation learning or reinforcement learning models, particularly grasping and placing tasks that involve visual perception and joint control. The dataset only provides a training set split, and the robotic platform utilized is so_follower.

创建时间：

2026-05-11

搜集汇总

数据集介绍

构建方式

so101_pick_place_items数据集由LeRobot框架构建，专注于机器人操作领域的任务学习。该数据集通过模拟或真实环境中的机器人执行抓取与放置动作，采集了423个完整episode，总计246471帧数据，涵盖5种不同任务。数据以Parquet格式存储，采用分块方式管理，确保高效读取与扩展性。每个episode包含动作指令、机器人关节状态、以及来自腕部和前方摄像头的多视角视觉观测，统一以30帧/秒的频率记录，为模仿学习和策略训练提供了丰富的时序信息。

特点

该数据集的核心特点在于其多模态数据融合与机器人控制的高保真度。动作空间和状态空间均包含6维关节位置信息（如肩关节、肘关节、腕关节和夹爪），支持精确的运动复现。视觉观测则提供480x640分辨率、30帧/秒的AV1编码视频流，覆盖腕部与前方视角，便于算法从图像中提取环境线索。数据集明确区分训练集（全量423个episode），并标注了机器人类型为so_follower，方便针对特定硬件进行迁移学习。此外，数据组织清晰，包含时间戳、帧索引等元数据，利于时序建模。

使用方法

使用该数据集时，建议通过LeRobot库加载，直接读取Parquet文件及对应视频，亦可利用HuggingFace提供的可视化工具交互式预览数据。研究者可基于action、observation.state和observation.images字段训练模仿学习或强化学习模型，例如构建行为克隆或逆动力学控制器。数据已按episode索引分组，用户可自由划分训练/验证集（如按比例拆分），并借助帧索引进行时间对齐。由于采用Apache 2.0许可证，该数据集适用于学术与商业项目，但需注意视频文件需额外解码AV1编码，推荐使用ffmpeg等工具预处理。

背景与挑战

背景概述

在机器人学习领域，数据驱动的操作技能习得正成为提升机器人自主性与适应性的关键路径。so101_pick_place_items数据集由开源社区基于LeRobot框架创建，旨在为机械臂的抓取与放置任务提供标准化训练与评估资源。该数据集于近年发布，采用Apache-2.0协议开放，共包含423个演示片段、超过24万帧时序数据，覆盖5类子任务。数据集以SO-100型机械臂为机器人本体，采集了包括关节角度（肩部、肘部、腕部及夹爪位姿）和双视角视觉图像（腕部相机与前向相机）在内的多模态信息，为模仿学习与强化学习研究提供了高保真度的行为克隆样本。其发布填补了轻量级、开源、可复现的桌面级操作数据集的空白，推动了低成本机器人平台的算法验证与跨场景迁移研究。

当前挑战

当前面临的核心挑战首先体现于领域问题层面：尽管数据集聚焦于基础的抓取与放置操作，但现实应用中物体的形状、材质、光照及摆放姿势的多样性，使得仅凭有限任务模板训练的模型难以泛化至非结构化环境。此外，数据采集过程中，遥操作演示的精度与一致性受人为因素制约，423个片段中隐含的示范噪声与动作变异性对策略学习的鲁棒性构成考验。构建环节的挑战亦不容忽视：视觉数据采用AV1编码以平衡存储与质量，但解码实时性可能影响在线训练效率；机器人本体仅依赖6维关节状态与双RGB摄像头，缺乏力觉或深度信息，在应对易碎或透明物体时感知维度严重不足。多源时间序列与图像流的同步精度、低样本量下长尾任务的覆盖度，亦为模型设计提出了苛刻要求。

常用场景

经典使用场景

在机器人学习与操作领域，so101_pick_place_items数据集凭借其精细的动作捕捉与多视角视觉观测，成为训练机械臂完成拾取与放置任务的经典基准。该数据集记录了so_follower机器人在30帧每秒的采样频率下，通过肩部、肘部、腕部等多个关节协同运作，实现物品抓取与搬运的全过程。每个样本均包含6维关节空间的动作指令与状态信息，以及腕部和前向摄像头采集的480×640分辨率视频流，为模仿学习与强化学习提供了丰富的输入信号。研究者可利用这些数据，构建从视觉感知到动作映射的端到端模型，使机器人学会在复杂环境中定位目标、调整抓取姿态并稳妥放置，从而验证物理交互算法的鲁棒性与泛化能力。

解决学术问题

该数据集系统性地回应了机器人操作中‘如何从演示中高效泛化学术问题’，尤其聚焦于多任务场景下的策略迁移与样本效率瓶颈。传统方法常受限于单一任务或低维状态空间，难以适应真实世界中物品形状、位置和抓取点的不确定性。so101_pick_place_items通过覆盖5种不同任务类型、423个完整回合及超过24万帧数据，为解耦视觉特征与运动动力学提供了标准化平台。它推动了隐式动作表示与层级强化学习理论的实证研究，使得学术界能够量化对比行为克隆与逆强化学习在六自由度机械臂控制中的表现差异，进而揭示策略对视角变化与关节约束的适应机制，为构建通用操作智能奠定了数据基石。

衍生相关工作

so101_pick_place_items催生了一系列推动机器人学习边界的衍生工作。在算法层面，研究者基于其多视角视频与状态序列，提出了融合时空注意力的操作网络，实现了零样本的异形物体抓取；另一分支工作则利用该数据集验证了‘预训练-微调’策略的有效性，即先在模拟数据上学习通用表示，再用少量真实样本拟合物件特异性姿态。在框架层面，该数据集与LeRobot生态紧密耦合，启发了针对so_follower机器人的标准化评估套件，促进了不同研究工作在相同数据分布下的公平对比。此外，部分工作还探索了将数据转换为语言-动作联合嵌入，使机械臂能够通过自然语言指令直接调整拾取策略，拓展了人机协作的交互维度。这些衍生贡献不仅反哺了数据集本身的学术价值，更推动了整个机器人操作领域向可复现性与可扩展性迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集