so101_pick_unspell

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/gherrera-22/so101_pick_unspell

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专为机器人技术任务设计。数据集采用Apache-2.0许可证，包含1个总剧集、2945帧和1个总任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括训练分割（0:1），数据路径和视频路径分别指向parquet和mp4文件。特征描述详细列出了动作、观察状态、时间戳、帧索引、剧集索引、索引和任务索引的字段，包括数据类型和形状。动作和观察状态特征包含6个浮点型数值，分别对应机器人关节的位置。

创建时间：

2026-04-29

原始信息汇总

数据集概述

基本信息

数据集名称：so101_pick_unspell
许可证：Apache-2.0
任务类别：机器人技术（Robotics）
标签：LeRobot
创建工具：使用 LeRobot 创建

数据集规模

总片段数：1
总帧数：2945
总任务数：1
帧率（FPS）：30
数据文件大小：100 MB
视频文件大小：200 MB
分块大小：1000

数据集划分

训练集：0:1（全部数据作为训练集）

数据结构

代码版本：v3.0
机器人类型：so_follower
数据路径：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

特征名称	数据类型	形状	字段名称
action	float32	[6]	shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.state	float32	[6]	shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
timestamp	float32	[1]	无
frame_index	int64	[1]	无
episode_index	int64	[1]	无
index	int64	[1]	无
task_index	int64	[1]	无

其他信息

主页：暂无（标记为“More Information Needed”）
论文：暂无（标记为“More Information Needed”）
引用信息：暂无（标记为“More Information Needed”）

可视化

可通过 LeRobot 可视化空间查看数据集内容。

搜集汇总

数据集介绍

构建方式

so101_pick_unspell数据集基于LeRobot框架构建，专为机器人操作任务设计。该数据集包含单一任务类型的完整操作序列，由一部SO系列机械臂（SO Follower）在规约环境下执行抓取与释放操作时采集而成。数据以Parquet格式存储，并辅以MP4视频记录，共收录单条完整任务轨迹，总计2945帧时序数据，采样频率为每秒30帧。数据按照训练集与验证集划分，所有数据均遵循Apache-2.0开源协议。

特点

该数据集的结构设计体现了机器人领域数据采集的典型规范。每帧数据包含6维关节空间动作指令（包括肩部、肘部、腕部及夹爪位置）与等维度的观测状态，形成完整的控制闭环。时空元数据涵盖时间戳、帧索引和任务标识，便于数据对齐与回放。特别地，数据集通过chunks_size参数将长序列切分为固定长度的样本块（每块1000帧），并辅以100MB的向量数据和200MB的视频数据，彰显了多模态融合与高效存储的双重特性。

使用方法

使用者可通过LeRobot库的标准化接口加载此数据集。加载后，每个样本自动包含action（控制信号）、observation.state（机器人关节状态）、timestamp（时间戳）、frame_index（帧序号）及episode_index等字段。由于数据已按块分片为parquet文件并关联视频路径，用户可灵活提取动作序列用于模仿学习，或借助MDP建模进行策略训练。推荐通过LeRobot的DataPipeline框架实现批量化读取、预处理与数据增强操作。

背景与挑战

背景概述

so101_pick_unspell数据集由gherrera-22团队基于LeRobot框架创建，于近年发布，旨在推动机器人操作任务的模仿学习研究。该数据集聚焦于“拾取与拼写”这一精细化操作任务，利用so_follower机器人采集了单一任务片段，包含2945帧时序数据，记录了6自由度关节状态与动作序列。作为机器人领域的小规模专用数据集，它以高频率（30 FPS）的视觉-运动耦合数据为特色，为研究从人类演示中学习复杂操作技能提供了基础资源，尤其适用于验证模仿学习算法在有限样本条件下的泛化能力。其Apache-2.0许可协议降低了研究门槛，促进了机器人学习社区的协作与创新。

当前挑战

该数据集面临的挑战首先体现在所解决的领域问题上：机器人操作任务要求模型从高维时序数据中精准解析动作意图，并实现跨姿态的鲁棒执行，而单一任务（拾取与拼写）的复杂性在于需要协调连续关节运动与末端夹持器的精细控制，这对模仿学习算法在低数据量下的泛化能力构成严峻考验。构建过程中，数据采集依赖so_follower机器人在真实环境中的手动演示，仅有1个完整任务片段，这引入了动作轨迹多样性不足和噪声敏感性高的固有问题。此外，缺失机器人与场景的视觉观测信息（如RGB图像或深度图），限制了多模态融合方法的适用性，且总帧数较少（2945帧）难以支撑大规模模型训练，易导致过拟合风险。

常用场景

经典使用场景

在机器人操作领域，so101_pick_unspell数据集聚焦于机械臂的抓取与放置任务，尤其针对so_follower型机器人。该数据集记录了机械臂执行“拾取-拼写”操作的完整轨迹，包含6维动作空间（肩部、肘部、腕部及夹爪的位姿）及对应观测状态，每帧以30Hz频率采样，共2945帧构成单一任务episode。研究者常用此数据集训练模仿学习模型，通过监督学习将人类示教轨迹映射为机器人策略，从而复现精细的物体搬运与拼写动作。

实际应用

实际应用中，so101_pick_unspell数据集为工业与家庭服务机器人提供了可直接部署的操控方案。例如，机械臂可基于训练后的模型，在仓储环境中精准拾取零件并按照指定顺序拼装；或在家居场景中协助整理桌面物品（如将散落的字母块拼成单词）。由于数据包含夹爪动作，它还能适配易碎物品的轻柔抓取，拓展了机器人在精细组装、教育与康复辅助等领域的落地潜力。

衍生相关工作

衍生的经典工作包括基于LeRobot框架的模仿学习流水线，利用此数据集验证了扩散策略（Diffusion Policy）在连续动作生成中的优势。此外，研究者将其改造为多模态训练集，结合视觉与触觉传感器数据，衍生出跨感官融合的机器人控制模型。也有工作在此基础上引入数据增强（如动作噪声注入），生成更鲁棒的策略，推动了泛化性能研究。这些工作共同构成了“数据驱动机器人操作”方向的重要基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集