so101_pick_and_place

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Itaivan/so101_pick_and_place

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot项目创建，是一个用于机器人学研究的开源数据集，采用Apache-2.0许可证。数据集包含70个完整回合，总计25,638帧数据，覆盖1个任务，以30帧每秒的频率采集。每个样本包括：1) `action`：6维浮点向量表示机器人关节（肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪）的目标位置；2) `observation.state`：6维浮点向量表示上述关节的当前观测位置；3) `observation.images.front` 和 `observation.images.up`：来自前方和上方视角的视频观测数据，每帧图像分辨率为640x480，RGB格式，视频编码为AV1；4) 索引字段如`timestamp`、`frame_index`等。数据使用Franka Emika Panda机器人（型号`so_follower`）收集，全部划分为训练集。原始数据以Parquet文件格式存储（约100MB），视频文件总大小约200MB。适用于机器人模仿学习、强化学习、视觉运动策略学习等任务，特别是多视角视觉输入下的抓取与放置操作。

创建时间：

2026-05-13

原始信息汇总

数据集概述：so101_pick_and_place

数据集地址：https://huggingface.co/datasets/Itaivan/so101_pick_and_place
许可证：Apache-2.0
任务类别：机器人学（Robotics）
标签：LeRobot

数据集描述

该数据集基于 LeRobot 框架创建，用于机器人抓取与放置（Pick and Place）任务。数据集包含 70 个片段（episodes），总共 25,638 帧（frames），覆盖 1 个任务。

数据集结构

总片段数：70
总帧数：25,638
总任务数：1
数据文件大小：约 100 MB
视频文件大小：约 200 MB
帧率（FPS）：30
机器人类型：so_follower

特征（Features）

特征名称	数据类型	形状	说明
action	float32	[6]	机器人动作指令，包括肩部、肘部、腕部、夹爪等6个自由度位置
observation.state	float32	[6]	机器人状态观测，同样为6个自由度的位置信息
observation.images.front	video (av1)	480×640×3	前置摄像头视频，分辨率480×640，RGB，30FPS
observation.images.up	video (av1)	480×640×3	上置摄像头视频，分辨率480×640，RGB，30FPS
timestamp	float32	[1]	时间戳
frame_index	int64	[1]	帧索引
episode_index	int64	[1]	片段索引
index	int64	[1]	全局索引
task_index	int64	[1]	任务索引

数据文件路径

数据文件：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据划分

训练集：片段 0 到 69（共70个片段）

引用信息

目前暂无 BibTeX 引用信息可用。

搜集汇总

数据集介绍

构建方式

so101_pick_and_place数据集是基于LeRobot框架构建的机器人操作数据集，专注于抓取与放置任务。通过操控SO-100系列机械臂，研究人员在真实环境中采集了70个演示片段，共计25,638帧数据。每个片段记录了机械臂从起始位置抓取目标物体并放置到指定区域的动作序列，涵盖了6维关节空间的动作指令与状态观测。数据以Parquet格式存储，同时配备了分辨率为640×480的双视角视频流（前视与俯视），并采用AV1编码压缩以平衡画质与存储效率。整个数据集结构遵循LeRobot的标准化协议，包含帧索引、时间戳、任务索引等元信息，便于后续处理与扩展。

特点

该数据集的核心特点在于其多模态融合与高保真度。动作与状态空间均包含肩部旋转、肘部屈伸、腕部调节及夹爪开合共6个自由度，确保了运动描述的完整性。双摄像头系统从不同角度同步记录视觉信息，为模仿学习提供了丰富的空间上下文。数据集统一以30fps的采样频率采集，时间序列连续且帧间关联性强。所有数据已按70:0的比例划分为训练集，无需额外分割。此外，Apache-2.0许可协议赋予了研究者极大的复用自由度，适合用于机器人领域的基准测试与算法对比。

使用方法

研究者可通过LeRobot框架轻松加载该数据集，利用其内置的API直接获取parquet文件中的动作向量、状态向量及视频帧。推荐使用Hugging Face提供的可视化工具预览数据内容，以快速了解任务模式。在模型训练中，可将$&\text{observation.state}$和$&\text{observation.images}$作为输入，$&\text{action}$作为监督信号，应用于行为克隆、逆强化学习等范式。数据已按Episode索引组织，便于构建循环神经网络或Transformer等序列模型。建议结合LeRobot的dataloader模块进行批量采样与数据增强，以提升训练效率。

背景与挑战

背景概述

在机器人操作领域，模仿学习（Imitation Learning）作为从人类示教中获取技能的重要范式，近年来在抓取与放置（Pick-and-Place）等基础任务上展现出巨大潜力。so101_pick_and_place数据集由研究机构Itaivan基于LeRobot框架创建，旨在为机械臂的精准抓取与放置任务提供标准化的训练与评估基准。该数据集于近期发布，采集自so_follower型机器人，包含70个完整的操作回合（episodes），共计25638帧时间序列数据，并以30帧/秒的采样率记录了关节角度（6维动作空间）、前端与上方双视角RGB视频（480×640分辨率）等模态信息。其核心研究问题聚焦于如何通过多模态观测数据，使机器人学会从随机初始位置抓取目标物体并放置至指定区域，强调的是在位精准操作与动作序列的复制能力。凭借开源协议与细粒度的结构设计，该数据集为低样本效率下的机器人模仿学习、多视角融合策略以及小规模数据集上的泛化研究提供了宝贵的支撑，推动了机器人操作技能从程序化控制向数据驱动学习的转变。

当前挑战

当前，so101_pick_and_place数据集面临的核心挑战体现在领域问题与构建过程两个层面。就领域问题而言，抓取与放置任务虽看似基础，却涉及物体几何不确定性、位姿估计误差以及复杂的手眼协调问题，如何从有限的数据中学习到对物体形状、材质及环境光变化具有鲁棒性的策略，是该数据集所要攻克的关键难题。此外，机器人动作空间的高维连续特性与任务执行过程中动态约束的满足（如避碰、力控保证）进一步加剧了学习难度。在构建过程中，数据采集面临两大挑战：其一，遥操作示教阶段需确保演示轨迹的一致性与最优性，而人工示教难免引入个体变异（如执行速度、抓取姿态的细微差异），这增加了策略学习的随机性；其二，双视角视频数据的高效压缩与同步存储（采用AV1编码与含元数据的Parquet格式）对系统实时性提出了严苛要求，同时有限的总数据量（视频与结构化数据合计约300MB）也带来了小样本学习场景下过拟合风险的控制挑战。

常用场景

经典使用场景

在机器人学习与智能操控领域，so101_pick_and_place数据集被广泛用于训练和评估机械臂执行抓取与放置任务的模仿学习算法。该数据集包含70个完整操作轨迹，记录了SO-100型机械臂在抓取与放置物体过程中的关节状态（六轴位置信息）与多视角视觉观测（前置与顶部摄像头），为研究基于视觉的运动策略提供了高质量的专家演示数据。其经典使用场景是作为模仿学习算法（如行为克隆、逆强化学习）的训练样本，使机械臂能够从演示中学习精准的操控动作序列，进而自主完成物体搬运任务。

解决学术问题

该数据集有效解决了机器人操作领域若干核心学术难题，包括如何从高维视觉输入中高效提取操控特征、如何在有限演示样本下实现稳健的泛化能力，以及如何将关节空间的动作表示与任务层面的目标描述相统一。具体而言，研究人员可借助此数据集验证视觉运动策略（visuomotor policy）的端到端学习效果，探索多模态融合（图像+状态）对操控精度的影响，并评估不同网络架构（如Transformer、扩散模型）在少样本场景下的迁移性能。这些问题的攻克极大推动了机器人从固定程序控制向数据驱动学习范式的转型，为构建灵巧、通用的自动化操作智能奠定了基础。

衍生相关工作

围绕so101_pick_and_place数据集，学界已衍生出多项标志性研究工作。其中，基于该数据集的模仿学习基线模型成为检验新型算法性能的标准参照，如将扩散策略（Diffusion Policy）应用于其轨迹数据的动作生成，验证了概率模型在处理多模态分布动作时的优势。另有工作聚焦于跨任务迁移学习，利用该数据集的单一抓取任务作为预训练起点，结合微调技术泛化到堆叠、转动等复杂操作。此外，该数据集还被用于验证实时视频预测与运动规划联合框架的有效性，推动了事件相机与常规视觉融合的前沿探索，形成了以LeRobot生态为核心的开源机器人学习基准体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集