so101-pick-place

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/MaxT90/so101-pick-place

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由LeRobot创建的机器人技术数据集，采用Apache 2.0许可协议。数据集包含机械臂（so_follower类型）的操作数据，主要记录6自由度关节（肩部平移/抬升、肘部弯曲、腕部弯曲/旋转及夹爪）的位置信息。数据以parquet文件格式存储，包含以下多模态特征：1）动作指令（6维浮点数组）；2）状态观测（与动作相同的关节角度）；3）双视角视觉数据（腕部摄像头和顶部摄像头采集的480×640分辨率RGB视频，30fps帧率）；4）时间戳、帧索引等辅助字段。数据集未提供具体样本量（episodes/frames/tasks字段暂为0），但注明数据分块存储（每块1000条记录），总数据量约100MB（视频文件额外200MB）。适用于机器人控制、模仿学习等任务。

This dataset is a robotics technical dataset created by LeRobot, licensed under the Apache 2.0 license. The dataset contains manipulation data of the so_follower-type robotic arm, mainly recording position information of 6-degree-of-freedom (6-DoF) joints including shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation and gripper joints. The data is stored in Parquet file format and includes the following multimodal features: 1) action commands (6-dimensional floating-point array); 2) state observations (same joint angles as the actions); 3) dual-view visual data: 480×640 resolution RGB videos captured by the wrist camera and the top camera, with a frame rate of 30 fps; 4) auxiliary fields such as timestamps and frame indices. The dataset does not provide specific sample sizes (the episodes/frames/tasks fields are currently set to 0), but notes that the data is stored in chunks with 1000 records per chunk, with a total data volume of approximately 100 MB (plus an additional 200 MB for video files). It is applicable to tasks such as robot control and imitation learning.

创建时间：

2026-04-26

原始信息汇总

数据集概述：MaxT90/so101-pick-place

该数据集是一个面向机器人操控任务的 LeRobot 格式数据集，专门用于“拾取与放置（pick-place）”场景。数据集基于 Apache-2.0 许可证开源。

核心信息

项目	内容
任务类型	机器人操控（Robotics）
许可证	Apache-2.0
数据格式	Parquet（主数据）+ MP4（视频）
帧率	30 fps
数据分块	每块 1000 帧
数据大小	主数据约 100 MB，视频约 200 MB

数据结构

数据集包含以下主要特征：

动作（action）：6 维浮点向量，控制机器人关节位置（肩部、肘部、腕部、夹爪）。
观测状态（observation.state）：6 维浮点向量，与动作空间一致，表示当前关节状态。
观测图像（observation.images）：两个摄像头视角：
- wrist：腕部摄像头，分辨率 480×640×3。
- overhead：顶部摄像头，分辨率 480×640×3。
时间戳（timestamp）：浮点类型，单值。
帧索引（frame_index）：整数，单值。
回合索引（episode_index）：整数，单值。
全局索引（index）：整数，单值。
任务索引（task_index）：整数，单值。

机器人平台

机器人类型：so_follower（SO-101 系列从动臂）。
控制维度：6 自由度（肩部、肘部、腕部、夹爪）。

数据存储结构

主数据路径：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

其他说明

数据集暂无论文或主页。
使用 LeRobot 框架创建。
提供在线可视化工具：https://huggingface.co/spaces/lerobot/visualize_dataset?path=MaxT90/so101-pick-place

搜集汇总

数据集介绍

构建方式

so101-pick-place数据集专为机器人抓取与放置任务设计，基于LeRobot框架构建。该数据集通过so_follower机器人平台采集，记录机械臂在完成拾取-放置操作时的完整状态与动作序列。数据以Parquet格式存储，并同步采集腕部与顶部两个视角的视频流（480×640分辨率），确保视觉与运动信息的时空一致性。每个轨迹包含6维动作指令（肩关节、肘关节、腕关节及夹爪位置）及对应的关节状态观测，帧率为30fps，数据被划分为1000帧的chunk单元，便于分布式加载与训练。

特点

该数据集的核心特色在于其多模态同步记录机制：既提供机械臂关节空间的连续状态与动作信号，又包含高帧率的双视角视觉观测，特别适合模仿学习与行为克隆任务。数据字段设计清晰，包含episode_index、frame_index等元信息，支持按轨迹索引快速检索。数据集采用Apache-2.0开源协议，且通过HuggingFace Spaces提供可视化交互界面，便于研究人员直观检查数据质量。此外，其数据量约为100MB的Parquet文件与200MB的视频文件，规模适中，适合快速迭代实验。

使用方法

用户可通过HuggingFace datasets库直接加载该数据集，指定'default'配置即可获取预处理的Parquet数据与对应视频文件。推荐使用LeRobot框架的Dataset类进行数据解析，其内置的标准化接口支持将action与observation.state字段直接映射为模型训练所需的输入输出格式。视频数据以MP4格式存储，可通过OpenCV或decord库解码为张量。对于强化学习或模仿学习场景，建议按episode_index切分轨迹，结合frame_index构建时序数据集，并利用torch.utils.data.DataLoader进行批量加载与数据增强。

背景与挑战

背景概述

在机器人操作领域，模仿学习作为一种高效的行为获取范式，正日益成为研究热点，其核心在于利用高质量演示数据驱动智能体习得复杂技能。so101-pick-place数据集正是在这一背景下应运而生，由研究者在LeRobot框架下创建，构建时间可追溯至2023年前后。该数据集聚焦于机械臂的抓取与放置任务，采用so_follower型机器人，通过动作空间与观测状态的双重六维关节信息记录，辅以腕部与顶部的视觉图像流，为多模态模仿学习研究提供了标准化素材。作为开源且遵循Apache 2.0协议的资源，它填补了面向精细操作的机器人数据集空白，尤其以30帧每秒的高时间分辨率和清晰的关节命名体系，为算法精度的提升奠定了数据基础，对推动机器人抓取领域的通用化与可复现研究具有深远影响。

当前挑战

该数据集所解决的领域挑战在于弥合仿真与真实世界中非结构化操作鸿沟，具体表现为抓取放置任务中物体位姿的多样性、夹具与环境的动态交互以及长程动作序列的连贯性，传统结构化数据集难以涵盖这些复杂变体。构建过程中面临的技术挑战包括：确保多模态数据（如关节状态与视觉流）的精准同步，以应对时序偏移问题；在有限样本下平衡动作轨迹的多样性以泛化至未见场景；以及克服真实机器人硬件中的累积误差与噪音干扰，使采集的演示数据既能反映专家策略又具备鲁棒性。此外，数据存储格式的设计需兼顾高效压缩与随机访问，如图像视频化处理与parquet分块策略，也构成了工程上的瓶颈。

常用场景

经典使用场景

在机器人操作领域，so101-pick-place数据集专为模仿学习与强化学习研究而构建，其最经典的应用场景是训练机械臂执行精确的抓取与放置任务。该数据集通过so_follower机器人采集，记录了从随机初始位置抓取目标物体并放置在指定区域的完整动作序列，涵盖六自由度关节运动指令与协同控制信息。研究者可利用该数据集训练端到端的视觉运动策略，例如结合腕部与顶置摄像头图像，让机器人从高维观测中自主学习抓放动作的映射关系，从而在物理世界中复现高效、鲁棒的拾放行为。

解决学术问题

该数据集针对机器人学习中数据稀缺与泛化能力不足的核心困境提供了关键支持。通过提供标准化的多模态演示——包括关节角度、图像序列以及时间戳对齐的动作指令——so101-pick-place使学术界能够深入研究小样本模仿学习、逆强化学习以及基于模型的策略优化等问题。它解决了从人类示教到机器人技能迁移中的动作表示、状态估计与误差修正等基础难题，推动了具身智能领域从仿真环境向真实场景的跨越，其开放协议也促进了不同算法间的公平对比与可复现研究。

衍生相关工作

围绕so101-pick-place数据集，衍生出一系列具有影响力的研究工作，诸如基于扩散策略的动作生成模型、层级化行为克隆算法以及融合视觉语言先验的拾放操作框架。研究者还利用该数据集验证了数据增强（如视角扰动、运动轨迹回放）在提升策略泛化性方面的作用，并探索了多任务联合训练范式，使得单一网络能够同时完成抓取、放置与推挤等复合操作。这些衍生工作不仅深化了人们对机器人技能习得机制的理解，也为构建通用型操作智能体奠定了坚实的实验基准。

以上内容由遇见数据集搜集并总结生成