custom_droid_dataset
收藏Hugging Face2026-04-17 更新2026-04-18 收录
下载链接:
https://huggingface.co/datasets/mousecpn/custom_droid_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人学相关数据集,使用LeRobot创建。数据集包含89个任务片段,共计20134帧数据,覆盖79个不同任务。数据以parquet文件格式存储,视频数据以mp4格式存储。数据集包含多种特征:两个摄像头视角的视频数据(外部左侧图像和腕部左侧图像,分辨率均为480×640,AV1编码,15fps),机器人状态信息(7维关节位置、1维夹爪位置、8维动作指令),以及时间戳、帧索引、片段索引等元数据。数据总大小约300MB(100MB数据文件+200MB视频文件)。数据集采用Apache-2.0许可证,适用于机器人控制、行为模仿等研究任务。
创建时间:
2026-04-16
原始信息汇总
数据集概述
基本信息
- 数据集名称: custom_droid_dataset
- 创建工具: LeRobot (https://github.com/huggingface/lerobot)
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot, droid, panda, custom
数据集规模
- 总任务数: 79
- 总情节数: 89
- 总帧数: 20134
- 总视频数: 178
- 数据块数: 1
- 数据块大小: 1000
- 帧率: 15 fps
- 数据分割: 训练集 (0:89)
数据结构
- 数据文件路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
- 视频文件路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
数据特征
-
exterior_image_1_left:
- 类型: 视频
- 形状: [480, 640, 3]
- 编码: h264
- 像素格式: yuv420p
- 非深度图
- 无音频
-
wrist_image_left:
- 类型: 视频
- 形状: [480, 640, 3]
- 编码: h264
- 像素格式: yuv420p
- 非深度图
- 无音频
-
joint_position:
- 类型: float32
- 形状: [7]
-
gripper_position:
- 类型: float32
- 形状: [1]
-
actions:
- 类型: float32
- 形状: [8]
-
timestamp:
- 类型: float32
- 形状: [1]
-
frame_index:
- 类型: int64
- 形状: [1]
-
episode_index:
- 类型: int64
- 形状: [1]
-
index:
- 类型: int64
- 形状: [1]
-
task_index:
- 类型: int64
- 形状: [1]
元数据
- 机器人类型: panda
- 代码库版本: v2.1
引用信息
- 主页: [More Information Needed]
- 论文: [More Information Needed]
- BibTeX: [More Information Needed]
搜集汇总
数据集介绍

构建方式
在机器人操作研究领域,高质量数据集的构建对于算法验证与模型训练至关重要。custom_droid_dataset依托LeRobot平台精心构建,通过Franka Emika Panda机器人执行79项多样化任务,采集了89个完整交互片段,共计20134帧数据。数据以分块形式组织,每个数据块包含1000帧,并以Parquet格式高效存储,确保了数据的结构化和可扩展性。视频数据以15帧每秒的速率录制,涵盖外部与腕部视角,为机器人状态与环境的同步分析提供了坚实基础。
特点
该数据集在机器人学习领域展现出鲜明的多模态特性,融合了视觉感知与本体状态信息。其核心特征在于同时提供了双视角高清视频流,包括外部固定摄像头与机器人腕部摄像头,分辨率均为640x480,编码为H.264格式。与视觉数据同步的是精确的机器人本体状态,涵盖7维关节位置、夹爪开合状态以及8维动作向量,并辅以时间戳与索引信息。这种时空对齐的多模态结构,使得数据集能够支持从模仿学习到强化学习等多种机器人控制算法的开发与评估。
使用方法
为便于研究社区使用,数据集已集成于Hugging Face平台,遵循标准数据加载流程。用户可通过LeRobot库或直接读取Parquet文件访问数据,数据按训练集划分,涵盖全部89个交互片段。每个数据文件对应一个完整的任务执行序列,研究者可依据帧索引、片段索引或任务索引提取所需片段。典型应用场景包括端到端策略学习、行为克隆模型训练,或作为机器人状态估计与感知算法的基准测试数据。数据集采用Apache 2.0开源协议,鼓励广泛的学术与工业应用。
背景与挑战
背景概述
在机器人学习领域,高质量、多模态的演示数据集对于推动模仿学习与强化学习算法的进展至关重要。custom_droid_dataset依托LeRobot开源框架构建,专注于Franka Emika Panda机械臂的操作任务,其核心研究问题在于如何通过丰富的视觉与关节状态数据,促进机器人从人类演示中学习复杂技能的能力。该数据集由HuggingFace社区贡献,尽管具体创建时间与主要研究人员信息尚未公开,但其结构化设计体现了当前机器人数据标准化与共享的趋势,旨在为机器人操作策略的泛化与迁移学习提供关键数据支撑。
当前挑战
该数据集旨在应对机器人操作任务中模仿学习所面临的挑战,即如何从有限的演示数据中泛化出鲁棒且可适应的控制策略。具体而言,挑战包括处理高维视觉观测与低维动作空间之间的语义鸿沟,以及在不同环境与任务间实现策略的有效迁移。在构建过程中,数据集面临数据采集一致性与标注质量的考验,例如确保多视角视频流与关节状态的精确同步,同时需在数据规模与多样性之间取得平衡,以覆盖足够广泛的任务分布,避免过拟合于特定场景。
常用场景
经典使用场景
在机器人学习领域,custom_droid_dataset 作为一项基于 Panda 机器人平台构建的多模态数据集,其经典使用场景聚焦于模仿学习与行为克隆的研究。该数据集通过整合外部与腕部摄像头视频流、关节位置、夹爪状态及动作指令等异构数据,为算法提供了丰富的时空上下文信息。研究人员能够利用这些序列化演示数据,训练端到端的策略模型,使机器人学习并复现人类操作员执行的各种任务,从而在仿真或真实环境中实现自主操作。
解决学术问题
该数据集有效应对了机器人学中示范数据稀缺与多模态对齐的挑战。它通过提供大规模、结构化的真实机器人交互记录,为研究模仿学习的样本效率、跨模态表征学习以及长时程任务的分层策略提供了实证基础。其意义在于降低了机器人技能获取的数据门槛,促进了数据驱动方法在具身智能中的发展,并为验证泛化能力与安全约束下的策略学习提供了标准化的评估基准。
衍生相关工作
围绕该数据集,已衍生出一系列专注于机器人模仿学习与离线强化学习的经典工作。例如,研究者利用其多模态序列开发了基于 Transformer 的时空预测模型,用于动作生成与状态推理;亦有工作结合其提供的动作与状态对,探索了保守 Q 学习等离线算法在机器人控制中的有效性。这些研究不仅推动了算法在真实机器人平台上的部署验证,也促进了 LeRobot 等开源生态中工具链与基准测试的完善。
以上内容由遇见数据集搜集并总结生成



