pen-pickup

Hugging Face2026-02-15 更新2026-02-16 收录

下载链接：

https://huggingface.co/datasets/pkroeger/pen-pickup

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，采用Apache 2.0许可证发布，属于机器人学领域。数据集包含36个训练片段，总计20485帧数据。数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括动作数据、状态观测、来自夹爪和顶部摄像头的视频观测，以及时间戳和帧索引等元数据。动作和状态观测数据为6维浮点数组，分别对应机器人关节的位置。视频数据分辨率为480x640，3通道，采用AV1编码。数据集适用于机器人控制和学习任务的研究。

This dataset was created by LeRobot and released under the Apache 2.0 license, targeting the field of robotics. It consists of 36 training segments, with a total of 20485 frames of data. The data files have a size of 100 MB, while the video files total 200 MB, with a frame rate of 30 fps. The dataset structure encompasses action data, state observations, video observations captured by the gripper and the top-mounted camera, as well as metadata including timestamps and frame indices. Both action and state observation data are 6-dimensional floating-point arrays, which respectively correspond to the positions of the robot's joints. The video data has a resolution of 480×640, 3 channels, and adopts the AV1 encoding format. This dataset is applicable to research on robot control and learning tasks.

创建时间：

2026-02-15

原始信息汇总

数据集概述

基本信息

数据集名称: pen-pickup
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 36
总帧数: 20485
总任务数: 1
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据分割: 训练集 (0:36)

数据特征

动作

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像（夹爪摄像头）

数据类型: 视频
形状: [480, 640, 3]
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

观测图像（顶部摄像头）

数据类型: 视频
形状: [480, 640, 3]
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

元数据

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
情节索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

文件存储

数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
配置文件: meta/info.json
代码库版本: v3.0
机器人类型: so101_follower

引用信息

主页: 未提供
论文: 未提供
BibTeX引用: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建往往依赖于真实世界的物理交互记录。pen-pickup数据集借助LeRobot平台，通过so101_follower型机器人执行拾取笔的任务，系统采集了36个完整交互片段，总计20485帧数据。数据以每1000帧为一个块进行组织，存储为Parquet格式，同时包含对应的视频文件，帧率为30fps，确保了时序动作与视觉观测的同步对齐。

特点

该数据集在机器人学习领域展现出多维度的观测与动作表征特点。其核心特征在于融合了六自由度关节位置的动作空间，以及对应的状态观测，同时提供了来自夹爪和顶部视角的双路RGB视频流，分辨率均为640x480。数据结构层次分明，通过帧索引、片段索引等元数据支持精细的时序分析，为模仿学习与强化学习算法提供了密集且对齐的多模态信号。

使用方法

为有效利用该数据集进行机器人技能学习研究，使用者可通过加载指定的Parquet数据文件访问动作、状态及时间戳等信息，并关联对应的MP4视频文件以获取视觉上下文。数据集已预设训练划分，涵盖全部36个交互片段，适用于端到端策略训练或行为克隆。研究人员可依据帧索引重建完整任务轨迹，并利用多视角图像与精确的关节位姿数据，训练模型理解并复现拾取笔的灵巧操作行为。

背景与挑战

背景概述

Pen-pickup数据集诞生于机器人操作学习领域，由HuggingFace的LeRobot项目团队创建，旨在为机械臂拾取笔类细小物体的精细操作任务提供真实世界演示数据。该数据集收录了36个完整操作序列，包含超过两万帧的多模态观测记录，融合了关节状态、夹爪及顶部视角视频流，为模仿学习与强化学习算法提供了宝贵的训练资源。其构建依托开源机器人平台，体现了社区驱动数据共享以加速机器人技能获取的研究趋势，对推动具身智能在非结构化环境中的适应性具有重要价值。

当前挑战

该数据集致力于解决机器人精细操作中笔类物体的可靠拾取问题，其核心挑战在于高维连续动作空间与视觉感知的精确对齐，以及动态接触物理的建模复杂性。构建过程中，数据采集面临机械臂控制精度、多传感器时序同步与真实环境干扰等多重困难，同时数据标注与大规模视频存储也带来了显著的计算资源负担。此外，如何从有限演示中泛化至未见物体姿态，仍是算法层面亟待突破的难点。

常用场景

经典使用场景

在机器人操作领域，pen-pickup数据集为机械臂抓取任务提供了丰富的多模态数据资源。该数据集通过记录机械臂执行拾取笔的动作，整合了关节位置、夹爪状态以及来自顶部和夹爪视角的视频流，为模仿学习与强化学习算法的训练与验证奠定了数据基础。研究者能够利用这些同步的观测与动作序列，构建端到端的控制策略，模拟真实环境中的精细操作过程，从而推动机器人自主抓取能力的发展。

解决学术问题

pen-pickup数据集主要针对机器人学中模仿学习的样本效率与泛化能力问题。它通过提供高质量的真实世界演示数据，帮助解决从视觉输入到连续动作映射的挑战，减少了在仿真环境中训练导致的模拟到现实差距。该数据集支持对多模态感知融合、时序动作预测等关键课题的探索，为开发能够在非结构化环境中执行复杂任务的智能体提供了实证基础，促进了数据驱动机器人控制方法的学术进展。

衍生相关工作

围绕pen-pickup数据集，已衍生出多项专注于机器人模仿学习与视觉运动控制的研究工作。例如，基于该数据集的行为克隆方法被用于验证策略网络的性能；同时，结合时间序列建模的算法如Transformer或扩散模型，也被应用于从视频演示中学习鲁棒的控制策略。这些工作进一步推动了多视角视觉特征提取、动作序列生成等技术的发展，并为开源机器人学习社区提供了可复现的基准测试平台。

以上内容由遇见数据集搜集并总结生成