droid_success

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/jnogga/droid_success

下载链接

链接失效反馈

官方服务：

资源简介：

DROID Success Episodes 是一个机器人操作数据集，包含从 DROID-COMMUNITY 中筛选出的成功操作片段。原始数据经过处理，移除了数据不一致或缺少语言指令的片段，保留了约92%的成功案例。数据集已从原始1.0.1版本转换为LeRobotDataset v3.0格式，总容量为1.05 TiB。数据集包含54,698个任务片段，总计14,358,900帧视频数据，帧率为15fps。数据采用分块存储，每块包含1,000个片段。主要特征包括： - 机器人动作数据（笛卡尔位置/速度、关节位置/速度、夹持器位置/速度） - 观察数据（关节位置/速度、夹持器位置） - 相机参数（腕部相机和外部相机的内外参） - 语言指令（最多3条） - 视频数据（720×1280分辨率，15fps，H.264编码）数据集适用于机器人操作、视觉-语言-动作对齐等研究任务。使用Franka Emika Panda机器人配合Robotiq 2F-85夹持器采集数据。

创建时间：

2026-02-17

搜集汇总

数据集介绍

构建方式

在机器人操作领域，大规模真实世界数据的积累对于推动智能体学习至关重要。DROID成功片段数据集源自DROID-COMMUNITY项目，通过筛选原始数据中约89%的成功操作片段构建而成。构建过程中剔除了数据不一致或缺乏语言指令的片段，确保了数据的完整性与可用性。随后，原始数据以1.04 TiB的体量从1.0.1版本全分辨率迁移至LeRobotDataset v3.0格式，并整合了来自KarlP/droid的额外标注，形成了包含53282个任务片段的标准化集合。

特点

该数据集在机器人操作研究中展现出多模态与高精度的显著特征。数据集囊括了超过1415万帧图像，以15帧每秒的速率记录了Franka Emika Panda机械臂配备Robotiq 2F-85夹爪的完整操作过程。其核心在于提供了丰富的传感器数据流，包括腕部与外部双摄像头的视频观测、七维关节与笛卡尔空间的动作与状态信息，以及相机内外参数标定。尤为突出的是，每个片段均附有一至三条自然语言指令，实现了视觉-动作-语言的深度融合，为具身智能研究提供了坚实的多模态基础。

使用方法

为便利研究社区的使用，数据集已集成至LeRobot生态系统。用户可通过安装`lerobot`库并调用`LeRobotDataset`接口直接加载`jnogga/droid_success`数据集，快速访问其结构化数据。数据以分块Parquet文件与MP4视频文件形式组织，便于流式读取与高效处理。研究者可依据`meta/info.json`中的特征定义，提取动作、观测、图像及语言指令等多维度信息，用于机器人策略学习、视觉语言模型训练或模仿学习算法的开发与评估。随附的示例笔记本进一步提供了详细的数据探索与处理指南。

背景与挑战

背景概述

机器人操作领域长期面临数据稀缺的挑战，尤其是在真实世界环境中收集大规模、高质量示范数据。DROID数据集应运而生，由Alexander Khazatsky等研究人员于2024年联合创建，旨在构建一个大规模、多样化的机器人操作数据集，以推动机器人学习算法的发展。该数据集聚焦于解决机器人操作任务中的泛化能力与鲁棒性问题，通过整合多视角视觉、语言指令与机器人动作数据，为模仿学习、强化学习等研究提供了宝贵的资源。其影响力在于为社区提供了首个大规模真实世界操作数据集，显著降低了机器人学习研究的门槛。

当前挑战

DROID数据集致力于解决机器人操作任务中的泛化与适应性挑战，其核心问题在于如何让机器人在复杂多变的环境中执行多样化的操作指令。构建过程中面临多重挑战：数据一致性维护困难，原始数据中存在不一致或缺乏语言指令的片段，需经过严格筛选，仅保留约89%的成功片段；传感器标定与对齐复杂，外部相机的外参估计依赖多种来源与度量，导致数据质量参差不齐；大规模数据处理与存储要求极高，数据集规模达1.04 TiB，包含超过1.4千万帧数据，对存储与计算资源构成压力；此外，真实世界环境的动态性与噪声增加了数据采集与标注的难度。

常用场景

经典使用场景

在机器人操作领域，大规模真实世界数据集对于推动模仿学习与行为克隆研究至关重要。DROID Success Episodes作为DROID-COMMUNITY中的成功轨迹子集，其经典使用场景集中于为机器人操作策略的端到端训练提供高质量示范数据。研究者利用该数据集丰富的多视角视频流、精确的机器人状态动作序列以及语言指令，构建能够从视觉输入直接映射到控制指令的神经网络模型，从而实现在复杂动态环境中鲁棒且泛化能力强的操作行为。

解决学术问题

该数据集有效应对了机器人学习研究中示范数据稀缺、质量参差不齐的核心挑战。通过提供超过五万条经过筛选的成功操作轨迹，它为解决长时程任务中的信用分配问题、多模态感知下的状态表示学习问题，以及语言指令到机器人动作的 grounding 问题提供了实证基础。其意义在于为社区建立了一个标准化、可复现的基准，显著降低了研究门槛，并推动了数据驱动方法在机器人操作领域的深入探索与性能突破。

衍生相关工作

围绕DROID数据集，已衍生出一系列具有影响力的研究工作。这些工作主要集中于利用其大规模多模态数据进行视觉-语言-动作联合建模，例如开发更高效的轨迹表示学习方法、探索基于扩散模型的机器人策略生成，以及研究跨任务和跨机器人的技能迁移。该数据集也常被用作评估新兴模仿学习、离线强化学习算法性能的关键测试平台，催生了众多在样本效率、泛化能力方面取得显著进展的经典模型与架构。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集