so101_pen_wooden_box_20260519_103919

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/nikodembartnik/so101_pen_wooden_box_20260519_103919

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于机器人操作任务的演示数据集，具体任务为“将笔放入木盒”。它由LeRobot项目创建，旨在为机器人模仿学习或强化学习提供训练数据。数据集包含200个完整的任务执行片段，总计75592个时间步（帧）。每个数据样本包含多模态信息：1）机器人动作：一个6维浮点向量，表示肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪的位置指令。2）机器人观测状态：一个与动作维度相同的6维浮点向量，表示机器人关节的实时位置。3）视觉观测：包含两个固定视角的RGB视频流（顶部视角和腕部视角），分辨率均为640x480，帧率为30fps。4）元数据：包括时间戳、帧索引、片段索引等。数据以分块Parquet文件格式组织，并配有对应的MP4视频文件。该数据集适用于训练机器人执行拾取放置类任务，特别是基于视觉的机械臂控制策略学习。

This dataset is a demonstration dataset for robotic manipulation tasks, specifically the task of "placing a pen into a wooden box". It was created by the LeRobot project, aiming to provide training data for robot imitation learning or reinforcement learning. The dataset contains 200 complete task execution episodes, totaling 75592 time steps (frames). Each data sample includes multimodal information: 1) Robot action: a 6-dimensional floating-point vector representing the position commands for shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, and the gripper. 2) Robot observation state: a 6-dimensional floating-point vector with the same dimension as the action, representing the real-time positions of the robot's joints. 3) Visual observations: two RGB video streams from fixed viewpoints (top-down viewpoint and wrist-mounted viewpoint), both with a resolution of 640×480 and a frame rate of 30 fps. 4) Metadata: including timestamp, frame index, episode index, etc. The data is organized in chunked Parquet file format, with corresponding MP4 video files. This dataset is suitable for training robots to perform pick-and-place tasks, especially for learning vision-based robotic arm control policies.

创建时间：

2026-05-19

原始信息汇总

数据集概述

该数据集用于机器人抓取与放置任务，具体任务为将笔放入木盒中。

基本信息

数据集名称：Task: put pen in wooden box
许可证：Apache-2.0
创建工具：LeRobot
帧率：30 FPS
机器人类型：so_follower

数据集规模

总片段数：200
总帧数：75,592
总任务数：1
数据文件大小：100 MB
视频文件大小：200 MB

数据集划分

训练集：索引 0 至 199（共200个片段）

特征结构

每个数据样本包含以下特征：

特征名	数据类型	形状	说明
action	float32	(6,)	6维动作：肩关节（pan/lift）、肘关节、腕关节（flex/roll）、夹爪位置
observation.state	float32	(6,)	6维观察状态，与动作维度相同
observation.images.top	video	(480, 640, 3)	顶部摄像头视频，AV1编码，30 FPS，RGB
observation.images.wrist	video	(480, 640, 3)	腕部摄像头视频，AV1编码，30 FPS，RGB
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	片段索引
index	int64	(1,)	全局索引
task_index	int64	(1,)	任务索引

数据存储

数据路径：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据格式：Parquet（动作/状态） + MP4（视频）

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，聚焦于机器人操控领域的拾取与放置任务，具体为将笔放入木盒这一精细操作。数据采集过程通过SO-100型机械臂完成，记录了200个完整操作回合，共包含75,592帧数据，以30帧/秒的速率捕捉。数据存储采用Parquet格式，支持高效的分块读取和处理。

使用方法

用户可通过HuggingFace上的可视化工具直接预览数据内容，或利用LeRobot库加载数据集进行模仿学习、行为克隆等算法训练。数据集预分为训练集（全部200个回合），兼容标准的机器学习工作流。Parquet和MP4文件的分块存储设计使得大规模数据的高效迭代与分布式处理成为可能。

背景与挑战

背景概述

在机器人操作领域，模仿学习已成为一种高效获取复杂技能的方法，但高质量示范数据的稀缺性始终制约着其发展。so101_pen_wooden_box_20260519_103919数据集由研究者nikodembartnik于2026年创建，依托LeRobot框架，聚焦于将笔放入木盒的抓取-放置任务。该数据集利用SO-101双臂机器人平台，通过远程操作采集了200个示范轨迹，总计超过7.5万帧，包含机器人6个关节的位置与动作信息，以及顶部和腕部两路640×480的视觉观察。其发布为细粒度操作技能的研究提供了标准化的数据基础，推动了机器人从单一抓取向精准放置任务的迁移学习与泛化能力研究。

当前挑战

该数据集所解决的领域问题在于，现有的机器人数据集多集中在粗粒度操作或单一视角场景，难以支撑诸如“笔入盒”这类对末端执行器精度和空间感知要求极高的任务。构建过程中，数据采集面临硬件同步与高保真度的挑战，需要同时记录关节角度、动作目标及多视角视频，确保时间戳对齐与帧率稳定。此外，示范轨迹的多样性与质量难以保证，单个任务200条轨迹可能不足以覆盖全部状态空间，导致模型在未见场景中的泛化能力受限。数据标注与后处理流程亦需精细设计，以消除噪声、补偿机械偏差，从而为模仿学习算法提供可靠的低级控制信号。

常用场景

经典使用场景

在机器人学习领域，so101_pen_wooden_box_20260519_103919数据集聚焦于经典的“拾取与放置”任务，具体场景为将一支笔精确放入木质盒子中。该数据集依托LeRobot框架采集，记录了SO-101机械臂在30帧每秒采样率下的200个完整演示回合，包含机械臂六个关节的动作指令与状态观测，以及顶部和腕部双视角的视觉信息。这些高质量的多模态数据为模仿学习、行为克隆和逆强化学习等算法提供了理想的训练与评估基准，尤其适用于研究机器人从人类演示中习得精细操作能力的范本。

解决学术问题

该数据集着力解决了机器人精细操作中技能迁移与泛化能力不足的学术挑战。通过提供包含高精度关节状态与视觉观测的配对数据，它使得研究者能够深入探索如何利用示范数据实现精准的物体操控，尤其是在非结构化环境中对小型目标（如笔）的抓取与放置。数据集的发布推动了模仿学习在机器人任务中的可复现性研究，为验证控制策略的鲁棒性与效率提供了标准化的测试平台，显著促进了从原始感知到动作映射的端到端学习范式的发展。

实际应用

在实际应用中，该数据集所体现的技能可直接服务于智能制造和家庭服务机器人领域。例如，机械臂通过学习“将笔放入木盒”的演示数据，能够适应不同尺寸或材质的物件进行类似操作，应用于电子元件的精密装配、药品分拣或办公用品的自动整理。数据集中的双摄像头配置模拟了真实工作场景中的环境感知，使得机器人在面对遮挡或光线变化时仍能保持执行可靠性，为仓储物流、实验室自动化等场景提供了低成本、高效率的部署思路。

数据集最近研究