pick_drive_zed

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/zifuwan/pick_drive_zed

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了转换为LeRobot v2.1数据格式的机器人操作演示，与berkeley_autolab_ur5数据集的结构相匹配。这个版本以10Hz的频率捕获数据，以便于存储和处理。数据集的任务是捡起硬盘并将其放入灰色盒子中。共有256个剧集，42,145帧，512个视频（每个剧集2种视频类型），格式为LeRobot v2.1，帧率为10FPS，视频分辨率为640x480。

创建时间：

2025-10-16

原始信息汇总

数据集概述

基本信息

数据集名称: Gello Dataset - LeRobot v2.1 Format (10Hz)
许可证: CC-BY-4.0
任务类别: 机器人技术
标签: LeRobot

数据集规格

任务描述: 拿起硬盘并将其放入灰色盒子中
总演示次数: 256次
总帧数: 42,145帧
总视频数: 512个（每次演示包含2种视频类型）
数据格式: LeRobot v2.1
帧率: 10 FPS
视频分辨率: 640×480像素

数据结构

gello_lerobot_v21_zed_10hz/ ├── data/ │ └── chunk-000/ │ ├── episode_000000.parquet │ ├── episode_000001.parquet │ └── ... (共256次演示) ├── meta/ │ ├── episodes_stats.jsonl # 每次演示的统计信息 │ ├── episodes.jsonl # 演示元数据 │ ├── info.json # 数据集元数据 │ └── tasks.jsonl # 任务描述 └── videos/ └── chunk-000/ ├── observation.images.hand_image/ │ ├── episode_000000.mp4 │ └── ... (共256个视频) └── observation.images.image/ ├── episode_000000.mp4 └── ... (共256个视频)

数据字段

观察字段

observation.state: 机器人关节位置和夹爪状态（7维float32）
observation.images.hand_image: 腕部摄像头视图（640×480×3视频）
observation.images.image: 基座摄像头视图（640×480×3视频）

动作字段

action: 机器人动作（7维float32）

元数据字段

timestamp: 时间步长（秒，float32）
episode_index: 演示标识符（int64）
frame_index: 演示内帧索引（int64）
next.reward: 奖励信号（float32）
next.done: 演示终止标志（bool）
index: 全局帧索引（int64）
task_index: 任务标识符（int64）

数据集统计

平均演示长度: 约165帧
平均演示时长: 约16.5秒

文件格式

Parquet文件: 每次演示存储为包含所有数据字段的Parquet文件
JSONL文件:
- episodes_stats.jsonl: 每次演示的详细统计信息
- episodes.jsonl: 演示元数据，包括任务分配
- tasks.jsonl: 任务定义
JSON文件:
- info.json: 数据集元数据，包括特征规范、分割和路径

视频规格

编解码器: AV1
分辨率: 640×480像素
通道: 3（RGB）
像素格式: YUV420p
帧率: 10 FPS

兼容性

LeRobot v2.1数据加载工具
HuggingFace数据集库
标准机器学习框架（PyTorch、TensorFlow）

转换说明

数据集使用gello_to_lerobot.py脚本从原始Gello pickle文件转换而来，转换过程包括加载原始演示数据、处理图像、创建LeRobot v2.1目录结构、保存演示为Parquet文件以及生成元数据文件。

搜集汇总

数据集介绍

构建方式

在机器人操作研究领域，数据采集的规范性与标准化至关重要。该数据集通过gello_to_lerobot.py脚本对原始Gello数据进行了系统化转换：首先从pickle格式的原始演示数据中提取信息，随后对图像数据进行统一处理，包括调整为640×480分辨率并转换为AV1编码视频；最终构建符合LeRobot v2.1标准的层级结构，将256个操作片段分别存储为Parquet文件，并同步生成包含统计指标与任务描述的元数据文件。整个转换过程采用10Hz采样频率，在保证数据完整性的同时实现了存储效率的优化。

使用方法

针对机器人学习算法的开发需求，本数据集提供了标准化的调用接口。研究人员可通过LeRobotDataset类直接加载数据目录，利用迭代器访问256个独立操作片段。每个片段均包含完整的观察-动作对序列，其中观察数据涵盖机器人状态与双视角视觉信息，动作数据则对应7维控制指令。数据集兼容主流机器学习框架，支持与HuggingFace生态无缝对接，用户可基于episode_index与frame_index实现精准的数据切片，为行为克隆、强化学习等算法验证提供完整的技术支持。

背景与挑战

背景概述

随着机器人操作任务的复杂化，数据驱动的学习方法逐渐成为提升机器人自主性的关键途径。pick_drive_zed数据集由LeRobot团队构建，采用标准化的LeRobot v2.1格式，专注于机械臂抓取与放置任务的演示数据采集。该数据集通过256条完整操作序列，系统记录了机器人执行硬盘拾取并放入灰色盒子的动作轨迹，以10Hz频率同步存储关节状态、视觉观测与控制指令，为模仿学习与强化学习算法提供了高质量的训练资源。其结构化存储方案与伯克利自动化实验室UR5数据集保持兼容，显著推动了机器人操作任务的标准化研究进程。

当前挑战

在机器人操作领域，精准抓取不规则物体始终存在感知-控制耦合的稳定性难题。该数据集针对硬盘抓取任务需解决机械臂轨迹规划中的动态避障问题，以及多视角视觉信号与关节动作的时序对齐挑战。构建过程中面临原始传感器数据到结构化格式的转换复杂性，包括高分辨率图像序列的压缩编码、异构数据源的同步融合，以及10Hz采样频率下数据完整性保障等技术瓶颈。此外，大规模演示数据的存储效率与快速加载需求，亦对Parquet列式存储与视频编码方案提出了苛刻要求。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过256个完整演示序列，为模仿学习与强化学习算法提供了标准化的训练与评估平台。其多视角视觉观测与关节状态数据的同步采集，使得研究者能够系统分析机械臂抓取硬碟并放置至指定容器的完整动作序列，为动态环境下的操作策略优化奠定数据基础。

解决学术问题

该数据集有效解决了机器人操作任务中样本效率低与泛化能力不足的核心难题。通过提供结构化标注的示范数据，显著降低了策略学习对真实环境交互的依赖，推动了端到端视觉运动策略、多模态感知融合等研究方向的发展，为构建通用型机器人操作系统提供了关键数据支撑。

实际应用

在工业自动化与物流分拣场景中，该数据集支撑的算法模型可直接应用于精密物件抓取、容器定位等实际任务。其双视角视觉系统模拟了真实工作环境中的监控与执行需求，为仓储机器人、生产线装配机械臂等设备提供了可迁移的动作规划能力，显著提升了复杂场景下的操作鲁棒性。

数据集最近研究