RoboCAS

arXiv2024-07-09 更新2024-07-12 收录

下载链接：

https://github.com/notFoundThisPerson/RoboCAS-v0

下载链接

链接失效反馈

官方服务：

资源简介：

RoboCAS数据集由美团公司创建，专注于复杂物体排列场景中的机器人操作。该数据集通过高度真实的物理模拟环境，展示了散乱、有序和堆叠的物体排列方式，涵盖了从简单到复杂的多种操作任务。数据集的创建过程中，使用了灵活的脚本策略自动生成场景和演示轨迹，以降低数据收集成本。RoboCAS数据集主要用于评估和提升机器人系统在实际应用中的长程操作能力，特别是在处理模糊指令和复杂环境中的空间推理能力。

The RoboCAS dataset was created by Meituan, focusing on robotic manipulation in complex object arrangement scenarios. This dataset showcases various object arrangement patterns including cluttered, ordered, and stacked configurations via highly realistic physics simulation environments, and covers a wide range of manipulation tasks spanning from simple to complex. During the dataset construction process, flexible scripting strategies were employed to automatically generate scenarios and demonstration trajectories, thereby reducing data collection costs. The RoboCAS dataset is primarily used to evaluate and enhance the long-horizon manipulation capabilities of robotic systems in real-world applications, particularly their spatial reasoning abilities when handling ambiguous instructions and complex environments.

提供机构：

美团

创建时间：

2024-07-09

原始信息汇总

RoboCAS: A Benchmark for Robotic Manipulation in Complex Object Arrangement Scenarios

简介

RoboCAS 基准测试是一个专门为复杂物体排列场景中的机器人操作设计的基准。该基准使用灵活且简洁的脚本策略，有效地收集了多种演示，展示了在高度逼真的物理模拟环境中分散、有序和堆叠的物体排列。它包括目标检索、障碍清除和机器人操作等复杂过程，测试代理在模糊指令下进行长时程规划、空间推理和预测连锁反应的能力。

数据集结构

在 hugging face 上的轨迹包含在 zip 文件中，每个文件包含以下任务：

scattered.zip: 分散场景中的拣选任务。
orderly.zip: 有序场景中的选择任务。
stacked.zip: 堆叠场景中的搜索任务。

每个轨迹的结构如下：

. |-- data_info.json # 数据集信息概览，字典格式。 |-- episode_0000000 # 轨迹 0。 | |-- episode_info.npz # 轨迹中的动作和机器人状态。 | |-- gripper_camera # 安装在夹持器上的摄像机数据。 | | |-- cam_pos_wrt_${parent}.npy # 相对于其父链接的相机姿态。 | | |-- intrinsic.npy # 相机的内参。 | | |-- rgb # 该轨迹中的 RGB 图像。 | | | |-- 0000.png # 第 0 步的图像。 | | | |-- ... | | | | | |-- depth # 该轨迹中的深度图像。与 "rgb" 结构相同。 | | |-- ... | | | |-- base_camera # 安装在机器人基座上的摄像机数据。与 "gripper_camera" 结构相同。 | | |-- ... | | | |-- static_camera # 安装在地面的摄像机数据。与 "gripper_camera" 结构相同。 | |-- ... | |-- episode_0000001 # 与 "episode_0000000" 结构相同。 |-- ...

在每个轨迹文件夹中，episode_info.npz 文件包含代理的轨迹，每个项目的结构和解释如下：

rel_pos: 末端执行器相对于上次末端执行器姿态的相对位置偏移（笛卡尔坐标）。
rel_orn: 末端执行器相对于上次末端执行器姿态的相对方向偏移（四元数）。
ee_pos: 末端执行器相对于臂基的绝对位置（笛卡尔坐标）。
ee_orn: 末端执行器相对于臂基的绝对方向（四元数）。
robot_joints: 臂的关节角度。
arm_joint_vel: 臂关节的速度。
base_pos: 臂基相对于世界的绝对位置（笛卡尔坐标）。
base_orn: 臂基相对于世界的绝对方向（四元数）。
base_rel_pos: 臂基相对于上次姿态的相对位置偏移（笛卡尔坐标）。
base_rel_orn: 臂基相对于上次姿态的相对方向偏移（四元数）。
gripper_width: 夹持器手指的开度。
gripper_status: 夹持器的开/关命令。
episode_length: 轨迹的长度。
language_goal: 该轨迹的全局目标指令。
language_embedding: 由 Mini LAMMA 生成的目标指令嵌入。
step_lang_goals: 该轨迹中每一步动作的子任务目标注释。
step_goal_embs: 由 Mini LAMMA 生成的步骤目标嵌入。
step_goal_type: 每一步中子任务目标的类型。

搜集汇总

数据集介绍

构建方式

RoboCAS数据集的构建采用了灵活且简洁的脚本策略，通过在高度逼真的物理模拟环境中高效地收集多样化的演示，展示了散乱、有序和堆叠的物体排列。这些演示涵盖了目标检索、障碍清除和机器人操作等复杂过程，测试了代理在模糊指令下进行长期规划和空间推理以及预测连锁反应的能力。数据集的构建还利用了真实的物体扫描，如桌子和衣柜等环境物体，以及可操作的物体，如杯子和洁面乳等，从而增强了环境的真实性。

特点

RoboCAS数据集的特点在于其复杂性和多样性。数据集包含了从简单物体操作到复杂的多步骤任务，如搜索等，每种任务都经过精心设计。与现有的基准数据集相比，RoboCAS特别强调物体之间的空间推理，鼓励机器人提高其根据模糊的语言指令在观察不完整的情况下进行预测连锁反应和操作的能力。此外，数据集还提供了自动化和快速演示生成方法，极大地简化了数据生成过程。

使用方法

RoboCAS数据集的使用方法主要涉及场景配置、任务设计和轨迹生成。首先，通过修改场景配置文件来生成各种场景，然后针对每种任务设计脚本策略来获取演示轨迹。这些轨迹涵盖了目标选择、抓取姿态采样、障碍清除和路径规划等子任务。用户可以根据自己的需求生成任何数量的轨迹，并通过提供的代码进行数据集的生成。此外，数据集还包含了RGB和深度图像、语言指令和轨迹数据等信息，可用于训练行为克隆模型。

背景与挑战

背景概述

在人工智能领域，具身AI（Embodied AI）正逐渐成为研究的热点。其核心目标是开发能够深刻理解环境、做出精确决策并执行复杂物理操作的智能系统。为了实现这一高级智能，研究人员利用了诸如模仿学习和强化学习等先进方法，这些方法在多个实验和应用中已被证明是有效的。然而，这些技术的成功实施严重依赖于大量高质量的训练数据，而这往往是一个挑战。目前，研究人员主要依靠两种类型的数据库来训练和测试这些智能系统：真实世界机器人数据库和模拟数据库。真实世界机器人数据库提供了真实世界的场景和物理交互数据，这对模型训练极为有利。然而，这些数据库的生产成本很高，包括昂贵的机器人硬件采购、复杂环境的设置以及大量的数据收集和标注工作。此外，这些数据库的生产周期也很长；例如，RT-1数据库在17个月内只收集了13万次专家演示。由于这些原因，现有的基准数据库数据量有限，任务相对简单，如图1(a)所示。同时，模拟数据库提供了一个成本效益高的替代方案。研究人员使用Gazebo和IsaacGym等平台通过计算机模拟来模拟各种场景和任务，快速生成大量数据。然而，当前的模拟数据通常缺乏现实世界的复杂性和多样性，这常常成为从模拟到现实（Sim2Real）过渡的主要障碍。如图1(b)所示，现有的数据库主要关注干净整洁的场景，如单调的桌面和背景，以及涉及抓取非现实物体的任务，如拾取积木。如图1(c)所示，日常生活通常包括有序排列和堆叠的物体，如堆放的蔬菜或货架上整齐排列的商品。这些场景要求代理能够处理模糊的语言指令，执行高级空间推理，并预测连锁反应。基于此，我们提出了一个新的基准，名为“复杂物体排列场景下的机器人操作”（RoboCAS）。该基准利用灵活简洁的脚本策略，在一个高度逼真的物理模拟环境中高效地收集展示散乱、有序和堆叠物体放置的广泛演示。这些演示涵盖了目标检索、障碍清除和机器人操作等复杂过程。值得注意的是，环境中的物体，如桌子和衣柜，以及可操作的物体，如杯子和洁面乳，都是通过对真实物体的扫描获得的。此外，开发的脚本策略自动化地生成场景和演示轨迹，使得模仿学习的训练和验证数据收集变得经济高效。该基准旨在全面评估具身AI模型在处理复杂物体排列场景方面的能力，特别关注长期机器人操作。广泛的实验结果表明，现有模型在这些场景中仍有很大的改进空间。我们预计，这个基准将大大推动该领域的研究和应用开发，为机器人技术在实践应用中的进步提供强有力的支持。

当前挑战

尽管RoboCAS基准在模拟复杂物体排列场景的机器人操作方面取得了进展，但仍面临一些挑战。首先，现有的具身AI模型在处理模糊的语言指令时仍然存在困难，这限制了它们在现实世界环境中的应用。其次，模型在空间推理和预测连锁反应方面的能力仍然不足，这在堆叠场景中尤为明显。此外，由于RGB图像在感知三维几何方面的固有局限性，模型在交互丰富的任务和杂乱场景中的性能仍然有待提高。最后，RoboCAS基准目前主要集中在基于语言指令的机器人操作能力上，而没有考虑移动基座和导航策略，这限制了机器人可以执行的任务的多样性和灵活性。未来的工作将重点解决这些问题，并探索将模拟数据转移到现实世界的潜在好处。

常用场景

经典使用场景

RoboCAS数据集专为复杂的物体排列场景下的机器人操作而设计，旨在促进机器人对环境的深度理解、精确决策和复杂物理操作的实现。数据集通过灵活简洁的脚本策略，在高度真实的物理模拟环境中收集了多样化的演示，包括散乱、有序和堆叠的物体排列。这些演示涵盖了目标检索、障碍清除和机器人操作等复杂过程，测试了代理在模糊指令下进行长期规划、空间推理和预测连锁反应的能力。该数据集为研究长期操作智能代理提供了宝贵的见解，有助于推动机器人技术在实践中的应用。

实际应用

RoboCAS数据集的实际应用场景包括家庭、零售空间等环境中复杂的物体排列操作。例如，在家庭环境中，机器人可以基于模糊的语言指令进行物品的搜索、选择和抓取，提高家务操作的自动化程度。在零售空间中，机器人可以根据货架上的物品排列，进行有效的物品整理和摆放。RoboCAS数据集还为机器人操作模型提供了大量的训练数据，有助于提高模型在实际复杂场景下的泛化能力和鲁棒性。

衍生相关工作

RoboCAS数据集的推出，促进了相关研究工作的开展。例如，基于RoboCAS数据集，研究人员可以进一步研究机器人操作模型在复杂场景下的空间推理和预测连锁反应能力，提高模型在实际应用中的性能。同时，RoboCAS数据集还为机器人操作模型的评估提供了新的基准，有助于推动机器人操作技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集