gherrera-22/so101_pick_and_spell

Name: gherrera-22/so101_pick_and_spell
Creator: gherrera-22
Published: 2026-05-01 13:46:30
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/gherrera-22/so101_pick_and_spell

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过LeRobot创建的，主要用于机器人技术领域。数据集包含动作、观察状态、时间戳、帧索引、剧集索引、索引和任务索引等特征。数据以parquet格式存储，视频以mp4格式存储。数据集的结构和特征表明它可能用于机器人动作和状态的研究。

This dataset was developed by LeRobot and is primarily designed for applications in the field of robotics. It includes features such as actions, observation states, timestamps, frame indices, episode indices, indices, and task indices. The structured feature data is stored in Parquet format, while the video files are saved in MP4 format. The structure and features of this dataset indicate its potential utility in research related to robotic actions and states.

提供机构：

gherrera-22

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot开源框架构建，专注于机器人操控任务中的拾取与拼写（pick and spell）场景。数据采集过程使用so_follower型号机器人，以30帧每秒的采样频率记录一次完整的操作轨迹，共计466帧数据。数据以parquet格式存储结构化信息，并配套mp4视频文件，遵循data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet和videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4的路径组织方式。每个episode包含连续的动作序列，并通过chunks_size为1000的块管理机制实现高效存储与访问。

特点

数据集呈现出鲜明的结构化特点，包含6维连续动作空间和6维观测状态空间，分别对应机器人六个关节的位置指令与实时反馈。数据特征囊括时间戳、帧序号、回合索引、任务索引等关键元信息，dtype统一为float32或int64，确保数值精度。作为单任务、单回合的精细化数据集，其数据与视频文件总大小约为300MB，兼顾了数据完整性与存储效率，为机器人模仿学习提供了高质量的轨迹样本。

使用方法

该数据集可通过HuggingFace上的LeRobot可视化工具在线预览，便于研究者直观理解操作细节。在使用时，用户需借助LeRobot库加载parquet文件，解析action字段作为控制策略的标签，observation.state字段作为当前环境状态的输入特征。数据集已预设训练集划分（splits.train: '0:1'），可直接用于训练模仿学习或强化学习模型，无需额外拆分。推荐的调用方式为通过lerobot.datasets模块读取，并利用chunks_size参数优化内存加载过程。

背景与挑战

背景概述

该数据集由gherrera-22团队基于LeRobot框架创建，聚焦于机器人操控领域中一项精巧的任务——拾取与拼写（Pick and Spell）。数据集发布于开源平台HuggingFace，采用Apache-2.0许可协议，旨在为机器人学习提供高质量的动作与观测数据。核心研究问题围绕如何利用少量示范（仅含1个回合、466帧）训练机器人执行精细的复合操作任务，涵盖6自由度机械臂（so_follower）的关节运动与夹爪控制。其影响力体现在为低样本、高精度的机器人模仿学习任务提供了标准化基准，推动了机器人技能获取与泛化能力的研究。

当前挑战

该数据集面临的挑战首先体现在领域问题层面：拾取与拼写任务要求机器人不仅具备精准的物体抓取能力，还需按序完成空间排列与字符组合，这对动作序列的规划与执行一致性提出了极高要求。在构建过程中，挑战尤为突出——仅收集单一回合的示范数据，导致数据极其匮乏，模型极易过拟合且难以泛化到新场景或目标物；同时，动作与状态特征均采用6维关节角度表示，缺少视觉输入，这使得任务只能依赖运动学先验，无法应对环境扰动或物体形态变化，严重限制了数据集的实用性与扩展性。

常用场景

经典使用场景

在机器人学习与操控领域，so101_pick_and_spell数据集聚焦于机械臂的拾取与拼写任务，为模仿学习和行为克隆提供了高质量的运动轨迹数据。该数据集记录了一台so_follower型机器人执行单一任务的完整过程，包含466帧状态-动作对，每个样本涵盖6维关节空间信息（肩部、肘部、腕部关节位置及夹爪状态）。研究者可借此训练机器人从观测状态到动作的映射策略，适用于基于视觉或关节反馈的端到端控制模型开发。其标准化的LeRobot格式与parquet存储结构，亦便于与主流深度学习框架无缝集成。

衍生相关工作

围绕so101_pick_and_spell数据集，衍生了一系列推动机器人学习发展的经典工作。首先，该数据集被用作LeRobot框架的标准化示例，促进了模仿学习流水线的可复现性研究，并催生了多种预训练动作编码器。其次，研究者基于其多模态特征（关节状态与时间戳）发展出结合视觉语言模型的分层规划方法，例如通过自然语言指令驱动机械臂执行组合任务。此外，在跨任务迁移学习领域，该数据集的单一任务特性为测试领域随机化、域适应算法提供了关键参照，相关成果已被应用于更复杂的操作基准（如TASKit），持续影响并拓展着具身智能的学术生态。

数据集最近研究