pi05-pick-up-brick-dualcam

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/autmoate/pi05-pick-up-brick-dualcam

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集与LeRobot相关，包含机器人技术相关的数据。数据集结构包括各种特征，如动作、观察（状态和来自前部和腕部摄像头的图像）、时间戳、帧索引、情节索引和任务索引。数据存储在parquet文件中，并包含视频文件。数据集共有95个情节，10,998帧和2个任务，帧率为15 fps。数据集的数据文件大小为100 MB，视频文件大小为200 MB。

创建时间：

2025-12-04

原始信息汇总

数据集概述

基本信息

数据集名称: pi05-pick-up-brick-dualcam
创建工具: LeRobot
许可证: Apache-2.0
任务类别: 机器人学

数据集规模

总情节数: 95
总帧数: 10998
总任务数: 2
数据文件大小: 100 MB
视频文件大小: 200 MB

数据结构

数据格式: Parquet
视频格式: MP4
帧率: 15 FPS
数据块大小: 1000帧/块
数据路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
划分: 训练集包含所有95个情节

数据特征

动作

数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态

数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像（前视摄像头）

数据类型: 视频
分辨率: 480×640×3
视频编码: AV1
像素格式: yuv420p
是否为深度图: 否
音频: 无

观测图像（腕部摄像头）

数据类型: 视频
分辨率: 480×640×3
视频编码: AV1
像素格式: yuv420p
是否为深度图: 否
音频: 无

元数据

时间戳: float32, 形状[1]
帧索引: int64, 形状[1]
情节索引: int64, 形状[1]
索引: int64, 形状[1]
任务索引: int64, 形状[1]

技术信息

代码库版本: v3.0
机器人类型: so100_follower

缺失信息

主页: 未提供
论文: 未提供
引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于推动模仿学习与强化学习算法的进步至关重要。pi05-pick-up-brick-dualcam数据集依托LeRobot平台构建，通过so100_follower型机器人执行拾取砖块任务，系统采集了95个完整操作片段，共计10998帧数据。数据以15帧每秒的频率记录，并采用分块存储策略，将动作指令、机器人关节状态、双视角视觉观测（前视与腕部摄像头）以及时间序列索引整合于Parquet格式文件中，确保了数据的结构化与高效存取。

特点

该数据集的核心特征在于其多模态与高同步性的数据呈现。它不仅提供了六维度的关节位置动作与状态向量，还同步捕获了前视与腕部两个视角的RGB视频流，分辨率均为640x480，编码为AV1格式，为算法提供了丰富的环境感知信息。数据以严格的时序对齐方式组织，每一帧都关联了精确的时间戳、帧索引与任务索引，支持对长序列操作任务的端到端分析。数据集规模适中，总计约300MB的存储占用，便于研究者在有限资源下进行高效的模型训练与验证。

使用方法

为便于学术研究与应用开发，该数据集已预分割为训练集，涵盖全部95个操作片段。使用者可通过LeRobot库或直接加载Parquet文件来访问数据，其中动作、状态及图像观测均以统一的15Hz频率对齐。研究人员可借此数据集训练机器人模仿学习模型，例如通过观测图像序列预测关节动作，或开发基于视觉的强化学习策略。数据的分块存储设计（chunk_size=1000）支持流式加载，适合处理长时程任务，同时视频文件独立存储，便于可视化分析与模型调试。

背景与挑战

背景概述

在机器人操作学习领域，高质量、多模态数据集的构建对于推动模仿学习与强化学习算法的实际应用至关重要。pi05-pick-up-brick-dualcam数据集由HuggingFace的LeRobot项目团队创建，旨在为机器人抓取与操作任务提供丰富的真实世界交互数据。该数据集聚焦于双摄像头视角下的积木抓取任务，通过记录机械臂的关节状态、前视与腕部视觉信息，为研究机器人感知与控制的协同优化提供了实证基础。尽管具体创建时间与核心论文信息尚未公开，但其依托开源机器人平台，体现了社区驱动的研究范式，对促进机器人学习的数据标准化与算法验证具有积极意义。

当前挑战

该数据集致力于解决机器人操作中复杂场景下的感知与动作映射挑战，尤其在非结构化环境中实现精准抓取仍存在诸多困难。构建过程中，数据采集需协调多传感器同步，确保视觉流与关节状态的时间对齐，同时维持高帧率下的数据一致性面临技术瓶颈。此外，真实世界操作的随机性与噪声干扰，如光照变化、物体位姿不确定性，增加了数据标注与清洗的复杂度。数据规模有限与任务多样性不足也可能制约模型的泛化能力，需进一步扩展场景以覆盖更广泛的操作条件。

常用场景

经典使用场景

在机器人操作学习领域，pi05-pick-up-brick-dualcam数据集以其双摄像头视角和关节动作记录，为模仿学习与强化学习算法提供了丰富的训练资源。该数据集通过捕捉机械臂拾取砖块任务中的前视与腕部视觉信息，结合六维关节位置数据，使研究者能够构建端到端的视觉运动策略模型，模拟真实环境中的抓取与操控行为。

解决学术问题

该数据集有效应对了机器人学中视觉-动作映射的挑战，解决了传统方法在复杂场景下泛化能力不足的问题。通过提供同步的多模态观测与精确的动作标注，它支持了从视觉输入到关节控制的直接学习，促进了基于深度学习的机器人策略优化，对提升自主操作系统的适应性与鲁棒性具有重要理论意义。

衍生相关工作

基于该数据集，研究者已开展多项经典工作，包括开发基于Transformer的视觉运动预测模型、探索多任务强化学习框架，以及改进模仿学习中的行为克隆算法。这些工作不仅扩展了数据集在机器人感知与控制领域的应用深度，还为开源机器人平台LeRobot的生态发展提供了数据支撑与验证基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集