so101_pick_and_spell

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/gherrera-22/so101_pick_and_spell

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由LeRobot创建的机器人学数据集，采用Apache-2.0许可协议。数据集主要包含机器人操作相关的动作和状态观测数据，适用于机器人控制与学习任务。数据集包含1个完整episode，共466帧数据，对应1个任务场景，视频帧率为30fps。数据以parquet格式存储（总大小100MB），配套视频文件200MB。核心特征包括6维动作空间（肩部平移/抬升、肘部弯曲、腕部弯曲/旋转、夹爪位置）和对应的6维状态观测，所有特征均为float32类型。数据组织采用分块存储模式（每块1000条记录），包含时间戳、帧索引、episode索引等元信息。

创建时间：

2026-04-28

原始信息汇总

数据集概述

数据集名称：so101_pick_and_spell
链接：https://huggingface.co/datasets/gherrera-22/so101_pick_and_spell
许可证：Apache-2.0

任务与标签

任务类别：机器人学（Robotics）
标签：LeRobot

数据规模

总片段数（episodes）：1
总帧数（frames）：466
总任务数（tasks）：1
帧率（fps）：30
数据文件大小：100 MB（Parquet格式）
视频文件大小：200 MB（MP4格式）
数据分片：训练集（train）包含全部1个片段（索引0:1）

数据格式与结构

数据路径：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
代码版本：v3.0
分块大小：1000

特征字段

字段名	数据类型	维度	说明
`action`	float32	[6]	机器人动作：肩部回转、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置
`observation.state`	float32	[6]	机器人状态：与动作相同（肩部回转、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置）
`timestamp`	float32	[1]	时间戳
`frame_index`	int64	[1]	帧索引
`episode_index`	int64	[1]	片段索引
`index`	int64	[1]	数据索引
`task_index`	int64	[1]	任务索引

机器人类型

机器人：so_follower

其他信息

创建工具：使用 LeRobot 创建
可视化：可通过 LeRobot 可视化空间查看（链接未提供具体绝对地址）
论文与主页：暂无提供（标记为 [More Information Needed]）

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架创建，聚焦于机器人领域的“拾取与拼写”任务。数据通过so_follower机器人采集，包含单个完整回合（episode），共计466帧时序数据，以30帧/秒的采样率记录。所有数据划分为训练集，采用parquet格式存储于data目录下，同时视频数据以MP4格式保存于videos目录中，便于多模态分析。数据集结构清晰，支持通过chunk索引与file索引进行分块访问。

特点

数据集的一个显著特点是其精细的六维动作空间，涵盖肩部旋转、肩部升降、肘部弯曲、腕部弯曲、腕部滚动及夹爪位置等关节控制参数。观测空间与动作空间维度一致，均为6维浮点型数据，便于学习状态与动作之间的映射关系。此外，数据集提供了丰富的时间戳与帧索引信息，为时序建模与回合制任务研究提供了坚实基础。

使用方法

用户可利用Hugging Face Spaces提供的可视化工具便捷浏览与检查数据。通过LeRobot框架，研究人员可直接加载parquet数据文件进行模仿学习或强化学习训练。数据集支持基于帧序列的滑动窗口采样，结合chunk_size参数（1000）可灵活组织训练批次。推荐使用PyTorch或TensorFlow结合LeRobot的数据加载器进行模型训练与评估。

背景与挑战

背景概述

该数据集由研究者gherrera-22利用LeRobot框架创建，聚焦于机器人操作领域的精细化任务——拾取与拼写（pick and spell）。数据采集基于so_follower机器人的六自由度关节空间（包括肩、肘、腕及夹爪等），以30帧/秒的高频采样记录了单个演示片段，累计466帧数据。其核心研究问题在于探究机器人如何通过模仿学习完成精细的物体拾取与顺序拼写操作，为具身智能体在结构化任务中的行为克隆提供基准数据。尽管数据集规模较小（单条轨迹），但其规范化的动作-状态空间设计（包含6维连续关节角度与夹爪位置）为后续多任务扩展和算法验证奠定了基础，在机器人技能迁移与少样本学习领域展现出启发性价值。

当前挑战

领域层面，该数据集所应对的核心挑战在于机器人精细操作中长序列任务的轨迹表征与泛化难题。拾取与拼写任务要求机械臂在连续动作空间中协调多个关节的瞬时位姿，同时需兼顾物体抓取稳定性与拼写顺序的准确性，这对动作策略的时序建模能力提出了极高要求。数据构建过程中，主要挑战体现为单条演示片段的代表性局限：仅包含一个任务类型、一个演示回合的配置，难以覆盖同一操作中不同物体形状、位置及拼写路径的多样性。此外，100MB的Parquet数据与200MB的视频文件虽保证了原始信息完整性，但稀疏的样本密度（466帧/1个回合）可能导致学习算法在面对环境扰动或目标偏移时缺乏鲁棒性，增加了从演示数据中提取通用运动基元的难度。

常用场景

经典使用场景

在机器人操作与模仿学习领域，so101_pick_and_spell数据集为研究者提供了一个精密的基准测试平台。该数据集记录了SO-100系列机械臂执行“拾取与拼写”任务的完整运动轨迹，涵盖了从肩关节到夹爪的六维动作空间与状态观测。其经典应用在于训练基于行为克隆或强化学习的策略模型，使机器人能够从高精度演示中习得物体的抓取与放置操作，尤其适用于验证端到端策略在连续动作空间中的泛化能力。

实际应用

在实际工业与生活场景中，so101_pick_and_spell数据集所支撑的模型可被部署于自动化分拣、精密装配等需要灵活抓取与定位的任务。例如，在电子元件组装的流水线上，机器人需根据预设的拼写规则将不同零件摆放至指定模板位置。该数据集提供的六自由度动作知识使机械臂得以应对零件形状的微小差异，并通过零样本或少样本学习适应新物料，从而提升生产线的柔性与效率。

衍生相关工作

基于此数据集，研究者已衍生出多种改进策略与模型架构。例如，结合扩散策略的动作生成方法利用该数据集的连续轨迹特征，实现了比传统高斯混合模型更平滑的机器人运动规划。此外，有工作将视觉语言模型与底层动作数据融合，使机械臂能够通过自然语言指令完成复杂的拼写任务。该数据集还常被用于验证逆强化学习在推断奖励函数时的有效性，以及多任务元学习在跨场景迁移中的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集