DROID

Name: DROID
Creator: 加州大学圣地亚哥分校、同济大学、上海交通大学、马里兰大学、清华大学
Published: 2024-10-30 01:58:13
License: 暂无描述

arXiv2024-10-30 更新2024-10-31 收录

下载链接：

https://robots-pretrain-robots.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

DROID数据集由多个研究机构创建，专注于机器人操作任务的大规模数据收集。该数据集包含36,000条机器人轨迹，涵盖了多种复杂的操作场景和任务。数据集的创建过程结合了机器人自身的感知状态和动作数据，通过引入新的对比损失函数和动作预测损失来增强数据集的质量。DROID数据集主要应用于机器人视觉表示的预训练，旨在提高机器人操作任务的成功率和效率。

The DROID dataset, developed by multiple research institutions, focuses on large-scale data collection for robotic manipulation tasks. This dataset contains 36,000 robotic trajectories, covering a wide range of complex manipulation scenarios and tasks. The development of the dataset integrates the robot's own perceptual states and motion data, and enhances its quality by introducing novel contrastive loss functions and action prediction losses. The DROID dataset is primarily applied to pre-training robotic visual representations, aiming to improve the success rate and efficiency of robotic manipulation tasks.

提供机构：

加州大学圣地亚哥分校、同济大学、上海交通大学、马里兰大学、清华大学

创建时间：

2024-10-30

搜集汇总

数据集介绍

构建方式

DROID数据集的构建基于大规模机器人操作数据，通过使用Franka机器人臂和Robotiq 2F-85夹爪进行远程操作收集。数据集包含76k条轨迹，每条轨迹包括来自两个外部Zed 2摄像机的RGB图像、机器人本体感受状态和动作，动作由delta 6D姿态和1-DoF夹爪动作组成。为确保数据质量，过滤掉少于40个时间步长的轨迹，并去除包含不完整或单字语言指令的轨迹，最终保留36k条轨迹用于预训练。

特点

DROID数据集的特点在于其大规模、多样化的场景和丰富的动态信息。数据集涵盖了广泛的操作任务，包括抓取、放置、装配等，每条轨迹都详细记录了机器人的视觉观察、本体感受状态和动作序列。这些特点使得DROID数据集成为学习机器人操作中心表示的理想资源，能够有效提升下游任务的表现。

使用方法

DROID数据集主要用于预训练视觉编码器，通过对比学习损失、动作预测损失和时间对比学习损失来学习操作中心表示。预训练后的模型可以直接用于下游任务的策略学习，通过模仿学习（Imitation Learning）或行为克隆（Behavior Cloning）算法进行微调。实验表明，使用DROID数据集预训练的模型在模拟和真实机器人操作任务中均表现出优越的性能。

背景与挑战

背景概述

DROID数据集由加州大学圣地亚哥分校、同济大学、上海交通大学、马里兰大学和清华大学等多个研究机构共同创建，旨在解决机器人操作任务中的视觉表示问题。该数据集的核心研究问题是如何从大规模机器人数据中学习到以操作为中心的表示，以提高机器人操作任务的成功率。DROID数据集的创建标志着机器人学习领域的一个重要进展，它通过引入新的预训练方法和评估指标，显著提升了机器人操作任务的表现。

当前挑战

DROID数据集面临的挑战主要集中在两个方面：一是如何解决领域问题，即图像分类和操作任务中的分布偏移问题；二是构建过程中遇到的挑战，包括数据收集的高成本和缺乏大规模的机器人数据。此外，如何有效地利用机器人数据中的动态信息，以及如何设计新的预训练目标以增强操作中心性，也是该数据集需要克服的重要难题。

常用场景

经典使用场景

DROID数据集在机器人视觉表示的预训练中展现了其经典应用场景。通过利用大规模机器人数据，该数据集能够捕捉视觉特征和动态信息，如动作和本体感受，从而提升操作任务的中心性。具体而言，DROID数据集被用于预训练视觉编码器，结合机器人本体感受状态和动作等运动相关数据，通过引入新颖的对比损失，将视觉观察与机器人本体感受状态-动作动态对齐，结合动作预测损失和时间对比损失进行预训练。

解决学术问题

DROID数据集解决了机器人视觉表示学习中的关键学术问题，即如何利用大规模机器人数据集来提升表示的中心性。传统方法使用人类视频进行预训练，但这些表示不可避免地受到分布偏移的影响，并缺乏完成任务所需的动力学信息。DROID数据集通过引入操作中心性（Manipulation Centricity）这一评估指标，显著提高了下游任务的成功率，为机器人视觉表示学习提供了新的视角和方法。

衍生相关工作

DROID数据集的引入催生了一系列相关研究工作，特别是在机器人视觉表示学习和操作任务的预训练方法方面。例如，基于DROID数据集的预训练方法MCR（Manipulation Centric Representation）显著提升了机器人操作任务的成功率。此外，DROID数据集还促进了对比学习、时间对比学习和动态对齐等技术的研究，这些技术在机器人视觉表示学习中发挥了重要作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集