so101_pick_sharpenr_v3_20260530_095754

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/utkarshsheel/so101_pick_sharpenr_v3_20260530_095754

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot平台创建，是一个用于机器人学研究的演示数据集。它包含60个完整的任务片段（episodes），总计35,919帧数据，数据文件总大小为100MB，视频文件总大小为200MB，帧率为30fps。数据集记录了机器人执行任务过程中的多模态信息：1）动作指令：一个6维浮点数组，对应肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪的位置控制指令；2）状态观测：一个6维浮点数组，记录机器人各关节的实际位置状态；3）视觉观测：包含顶部摄像头（top）和腕部摄像头（wrist）两个视角的同步视频流，每个视频流为480x640分辨率、3通道的RGB彩色视频，使用AV1编码。此外，数据集还包括时间戳、帧索引、片段索引、全局索引和任务索引等元数据字段。数据集采用Apache 2.0许可证，以Parquet格式分块存储，适用于机器人模仿学习、行为克隆、视觉运动策略学习等任务的研究与开发。

创建时间：

2026-05-30

原始信息汇总

数据集概述

基本信息

数据集名称: so101_pick_sharpenr_v3_20260530_095754
许可证: Apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot
创建方式: 使用 LeRobot 工具创建

数据集规模

总片段数 (Episodes): 60
总帧数 (Frames): 35,919
总任务数 (Tasks): 1
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率 (FPS): 30

数据集划分

训练集 (Train): 片段索引 0 至 59（共 60 个片段）

数据结构

数据集包含以下特征：

动作和状态

action: 6维浮点数组，包含关节位置：shoulder_pan.pos、shoulder_lift.pos、elbow_flex.pos、wrist_flex.pos、wrist_roll.pos、gripper.pos
observation.state: 与 action 相同的6维浮点数组，表示机器人状态观测

图像观测

observation.images.top: 顶部摄像头视频，分辨率 480x640，3通道，AV1编码，30 FPS
observation.images.wrist: 腕部摄像头视频，分辨率 480x640，3通道，AV1编码，30 FPS

时间与索引

timestamp: 时间戳，float32类型
frame_index: 帧索引，int64类型
episode_index: 片段索引，int64类型
index: 全局索引，int64类型
task_index: 任务索引，int64类型

机器人类型

机器人型号: so_follower

数据存储格式

数据文件: Parquet 格式，存储在 data/ 目录下，按 chunk 分块
视频文件: MP4 格式，存储在 videos/ 目录下，按视频键和 chunk 分块

引用信息

引用: BibTeX 引用信息暂缺（[More Information Needed]）

搜集汇总

数据集介绍

构建方式

so101_pick_sharpenr_v3_20260530_095754数据集基于LeRobot框架构建，专为机器人操作任务设计。该数据集包含60个演示片段，总计35919帧数据，所有帧以30帧每秒的频率采集，覆盖单一任务场景。数据通过so_follower型机器人收集，记录了肩部、肘部、腕部及夹爪的六维关节位置作为状态与动作信息。视觉模态由顶部和腕部两个摄像头提供，输出分辨率为480x640的RGB视频流，编码采用AV1格式，兼具画质与压缩效率。数据以Parquet文件结构存储，视频则独立编码为MP4文件，并通过分块机制组织，便于高效加载与分布式处理。

特点

该数据集的核心特点在于其多模态融合与标准化设计。动作与状态空间均为连续六维浮点向量，细致刻画了机械臂的完整运动学链。视觉输入涵盖顶视与腕部视角，为模型提供全局场景理解与局部操作细节的双重信息。数据遵循LeRobot规范，包含统一的索引、时间戳及任务标识符，支持长序列的时序建模。60个演示片段虽任务单一，但总帧数近三万六，提供了充足的样本量用于模仿学习或强化学习算法的训练与验证。数据存储采用分块与压缩策略，在保持高保真度的同时控制了存储开销。

使用方法

使用本数据集时，推荐基于LeRobot生态进行开发。用户可首先通过Hugging Face提供的可视化工具浏览示例片段，直观了解演示内容。数据以Parquet格式直接读取，视频帧可通过PyAV库解压为张量。训练过程中，可将六维动作与状态向量直接作为网络输入或输出，顶部与腕部图像则独立或拼接后输入视觉编码器。数据集预设了源自框架的标准化训练集划分（60个片段全部归入训练集），用户可根据需求自行重采样或扩展。结合LeRobot的API，能够便捷地实现数据加载、批处理与模型评估流水线的构建。

背景与挑战

背景概述

该数据集由utkarshsheel于2025年5月创建，依托HuggingFace LeRobot框架构建，聚焦于机器人操作领域的精细动作学习。核心研究问题在于如何通过视觉与状态数据驱动机械臂完成精准的物体拾取与放置任务，具体针对Sharpener（卷笔刀）这一目标物体。数据集包含60个演示片段，总计35919帧，由so_follower型机器人采集，记录了6自由度关节状态（肩、肘、腕及夹爪）与双视角视觉流（顶部与腕部摄像头），帧率30fps，在机器人模仿学习与行为克隆研究中具有示范意义，为细粒度操作策略的迁移学习提供了标准化基准。

当前挑战

所解决的领域问题在于，机器人精细操作面临高自由度运动规划与视觉-动作映射的复杂耦合，传统方法难以泛化至非结构化环境。该数据集构建过程中，需克服多模态数据（六维关节状态与两路640×480视频流）的同步采集与高效存储挑战，采用AV1编码压缩视频并控制数据规模在300MB以内；同时，仅单一任务（拾取卷笔刀）的60条演示序列，面临动作多样性不足与过拟合风险，如何从有限示范中提取鲁棒性策略是模型训练的核心难点。

常用场景

经典使用场景

在机器人学习领域，so101_pick_sharpenr_v3_20260530_095754数据集为模仿学习与行为克隆提供了高质量的视觉-动作对训练样本。该数据集通过LeRobot框架采集，包含60个episode、逾35000帧的机器人操作演示，涵盖了从肩部到腕部六个关节的连续动作序列以及顶部与腕部双视角视频流。研究者可借助这些精细标注的轨迹数据，训练机器人学会根据视觉输入复现“拾取-打磨”这类精细操作技能。经典的使用方式是将观测图像与状态向量作为输入，预测机器人下一步的关节位姿，从而完成从人类示教到机器自主执行的映射学习。

衍生相关工作

围绕该数据集已衍生出多项代表性工作，例如基于扩散策略（Diffusion Policy）的机器人动作生成框架，通过将视觉观测编码为条件信息，成功实现了对打磨轨迹的平滑预测与多模态输出。另一项经典工作则聚焦于表示学习，利用对比学习对双视角图像进行联合编码，显著提升了模型在视觉特征不匹配场景下的鲁棒性。此外，基于LeRobot框架的开源工具链也催生了大量关于数据增强与动作序列对齐的优化研究，这些工作共同推动了机器人技能学习从单一模仿向通用策略泛化的范式跃迁。

数据集最近研究