pick_block

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/d3d3shan/pick_block

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专为机器人技术任务设计，采用Apache-2.0许可证。数据集包含24个总片段，13569帧，涉及1个任务，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构详细描述了动作和观察状态，包括六个关节的位置信息，以及来自前部和腕部摄像头的观察图像，图像分辨率为720x1280，3通道，视频编码为av1。此外，数据集还包含时间戳、帧索引、片段索引、任务索引等元数据。所有数据以parquet格式存储，视频以mp4格式存储。

This dataset was created using LeRobot, specifically designed for robotics tasks, and is licensed under Apache-2.0. It contains a total of 24 segments and 13569 frames, covering one single task. The total size of the data files is 100 MB, and the video files are 200 MB, with a frame rate of 30 fps. The dataset structure elaborately describes the actions and observation states, including the position information of six joints, as well as observation images from the front and wrist cameras. The images have a resolution of 720x1280 and 3 channels, and the video is encoded with av1. Additionally, the dataset includes metadata such as timestamps, frame indices, segment indices, and task indices. All data is stored in Parquet format, while the videos are stored in MP4 format.

创建时间：

2026-04-05

原始信息汇总

数据集概述

基本信息

数据集名称: pick_block
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache 2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总情节数: 24
总帧数: 13569
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据分块大小: 1000
代码库版本: v3.0

数据划分

训练集: 包含所有24个情节 (索引范围: 0:24)

数据结构与特征

数据集以Parquet文件格式存储，包含以下特征：

动作空间

特征名: action
数据类型: float32
维度: [6]
描述: 包含6个关节的位置控制指令，具体为：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

状态观测

特征名: observation.state
数据类型: float32
维度: [6]
描述: 包含6个关节的当前位置状态，具体为：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

前视摄像头

特征名: observation.images.front
数据类型: video
分辨率: 720x1280
通道数: 3
视频编码: AV1
像素格式: yuv420p
是否为深度图: 否
帧率: 30 FPS
包含音频: 否

腕部摄像头

特征名: observation.images.wrist
数据类型: video
分辨率: 720x1280
通道数: 3
视频编码: AV1
像素格式: yuv420p
是否为深度图: 否
帧率: 30 FPS
包含音频: 否

元数据索引

时间戳: timestamp (float32, 维度[1])
帧索引: frame_index (int64, 维度[1])
情节索引: episode_index (int64, 维度[1])
全局索引: index (int64, 维度[1])
任务索引: task_index (int64, 维度[1])

机器人平台

机器人类型: so_follower

文件路径模式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

可视化

可视化空间: https://huggingface.co/spaces/lerobot/visualize_dataset?path=d3d3shan/pick_block

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建方式直接影响模型训练的效能与泛化能力。pick_block数据集依托LeRobot平台精心构建，通过真实物理环境中的机械臂操作任务进行数据采集。该数据集记录了24个完整操作片段，涵盖13569帧数据，以30帧每秒的速率捕捉机械臂执行拾取方块任务的全过程。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保高效的数据管理与访问。采集过程中同步记录了六自由度机械臂的关节位置状态、前视与腕部摄像头的高清视频流，以及精确的时间戳与索引信息，为后续分析提供了多维度的时空对齐数据。

特点

pick_block数据集在机器人学习领域展现出鲜明的技术特色，其核心在于多模态数据的深度融合与结构化组织。数据集不仅提供机械臂六轴关节的精确位置信息作为动作与状态表征，更整合了双视角视觉数据——前视摄像头与腕部摄像头分别以720p分辨率捕捉全局场景与操作细节。所有数据均以严格的时序对齐方式存储，每帧数据附带时间戳、帧索引与片段索引，确保动作与观察的时空一致性。数据采用高效的AV1视频编码与Parquet列式存储格式，在保证视觉质量的同时优化存储效率，为模仿学习与强化学习算法提供了高质量的训练素材。

使用方法

针对机器人技能学习的研究需求，pick_block数据集提供了标准化的使用范式。研究者可通过LeRobot生态系统直接加载数据集，利用其预定义的数据结构访问多模态观察序列与对应动作标签。数据集按训练集划分组织，支持流式读取与批量处理，便于构建时序预测模型或行为克隆算法。在实际应用中，可提取关节位置数据用于动力学建模，结合双视角视频流进行视觉运动策略学习。数据集的帧级索引机制允许精确截取特定操作阶段，而Parquet格式则兼容主流数据处理框架，为端到端的机器人控制算法开发与评估奠定了坚实基础。

背景与挑战

背景概述

在机器人操作领域，模仿学习与强化学习的发展亟需高质量、结构化的真实世界交互数据作为支撑。pick_block数据集由HuggingFace的LeRobot项目创建，旨在为机器人抓取与操控任务提供多模态演示数据。该数据集聚焦于基础的积木拾取任务，通过搭载于so_follower机器人平台的前置与腕部摄像头，同步记录关节位置状态与视觉观测信息，构建了包含24个完整交互序列、共计13569帧的时序数据。其核心研究问题在于如何利用真实机器人采集的异构传感器数据，有效训练端到端的策略模型，以推动机器人自主执行精细操作任务的进展，对机器人学习社区具有重要的数据资源价值。

当前挑战

该数据集旨在解决机器人模仿学习中从高维视觉观测到连续关节动作的映射挑战，其核心难题在于处理多模态数据的时空对齐与表征学习。构建过程中面临多重挑战：真实机器人数据采集存在硬件噪声与机械误差，导致动作执行与传感器读数之间存在偏差；大规模视频数据的存储与高效读取需要精巧的压缩与索引设计，以平衡数据质量与访问速度；此外，有限的交互场景与任务多样性可能制约模型的泛化能力，如何从少量演示中提取鲁棒且可迁移的技能表示，仍是待深入探索的问题。

常用场景

经典使用场景

在机器人操作领域，pick_block数据集为机器人抓取任务提供了丰富的多模态数据支持。该数据集通过记录机械臂执行拾取方块动作时的关节位置、视觉图像及时间戳信息，构建了一个完整的交互序列。研究者可利用这些数据训练端到端的模仿学习或强化学习模型，使机器人能够从视觉观察中推断出精确的动作指令，实现自主抓取。数据集中的前视与腕部摄像头视角，为模型提供了互补的空间感知信息，有助于提升抓取策略的鲁棒性和泛化能力。

衍生相关工作

围绕pick_block数据集，衍生出多项经典研究工作。例如，基于该数据集的模仿学习框架被用于探索视觉伺服控制策略，提升抓取精度。同时，结合强化学习的离线训练方法利用数据集中的示范轨迹，加速策略学习过程。部分研究进一步扩展了数据集的用途，将其作为多任务学习的基础，训练通用型机器人操作策略。这些工作不仅验证了数据集的有效性，也推动了机器人学习领域在样本利用、跨任务迁移等方面的理论进展。

数据集最近研究