ARNOLD

Name: ARNOLD
Creator: 加州大学洛杉矶分校, 北京大学, 清华大学, 哥伦比亚大学, 国家通用人工智能重点实验室
Published: 2023-09-11 19:27:53
License: 暂无描述

arXiv2023-09-11 更新2024-06-21 收录

下载链接：

https://arnold-benchmark.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

ARNOLD数据集是一个专为语言基础任务学习设计的基准，包含8个语言条件下的机器人任务，旨在评估机器人在理解对象状态和学习连续目标状态方面的能力。数据集包含10080个样本，这些样本是从连续状态空间中抽样的目标状态，每个任务都附有详细的任务描述。数据集的创建过程利用了高度精确的物理模拟引擎，生成了包括连续机器人运动、基于摩擦的抓取和多种对象状态操纵的挑战性机器人操作任务。ARNOLD数据集的应用领域主要集中在解决机器人如何理解和执行基于语言指令的复杂任务，特别是在处理连续状态和目标时的问题。

The ARNOLD dataset is a benchmark tailored for language-grounded robotic task learning, comprising 8 language-conditioned robotic tasks. It is designed to evaluate robotic capabilities in understanding object states and learning continuous target states. The dataset includes 10,080 samples, which are target states sampled from a continuous state space, and each task is paired with detailed task descriptions. The dataset was constructed using a highly precise physics simulation engine, which generated challenging robotic manipulation tasks covering continuous robotic motions, friction-based grasping, and manipulation of diverse object states. The ARNOLD dataset is primarily applied to addressing complex tasks that require robots to comprehend and execute language-conditioned instructions, especially tackling challenges in handling continuous states and target states.

提供机构：

加州大学洛杉矶分校, 北京大学, 清华大学, 哥伦比亚大学, 国家通用人工智能重点实验室

创建时间：

2023-04-10

搜集汇总

数据集介绍

构建方式

在具身智能领域，实现语言指令与连续物理状态之间的精确对应是机器人任务学习的核心挑战。ARNOLD数据集的构建依托于高保真物理仿真平台NVIDIA Isaac Sim，该平台集成了基于PhysX 5.0的物理引擎与GPU加速的光线追踪渲染技术，确保了场景的物理真实感与视觉逼真度。数据生成过程融合了基于关键点的运动规划器与人工标注：首先，针对八项语言条件操控任务，设计分阶段的运动规划器生成演示轨迹；其次，通过人工遥操作采集约两千条任务配置标注，以增强初始状态与交互位置的多样性；最后，利用模板化语言生成引擎为每条演示轨迹配以多样化的自然语言指令，涵盖数值描述与等效短语替换，从而构建出包含一万余条有效演示的大规模数据集。

特点

ARNOLD的显著特征在于其专注于连续状态空间下的语言接地任务学习。与现有基准通常假设离散或二元目标状态不同，该数据集引入了连续谱上的目标状态定义，例如抽屉开启百分比、物体旋转角度与液体倾倒体积，要求智能体理解并执行对连续物理量的精确操控。数据集囊括了二十个源自专业室内场景库的多样化三维环境与四十类经过物理属性优化的物体，并配备了五视角的RGB-D观测输入，其渲染过程因光线追踪采样而具有随机性，进一步提升了仿真真实性。尤为重要的是，ARNOLD系统性地设计了针对新颖目标状态、新颖物体与新颖场景的泛化评估划分，以及覆盖连续状态空间的“任意状态”划分，为系统化评估智能体的泛化能力提供了严谨框架。

使用方法

ARNOLD为语言条件策略学习模型提供了标准化的训练与评估流程。研究者可利用其提供的训练集，通常采用模仿学习或强化学习方法，训练模型根据多视角视觉观测与语言指令预测机器人末端执行器的动作。数据集支持两阶段学习范式，即将任务分解为抓取与状态操控两个子阶段进行训练。在评估阶段，模型需在未见过的测试集及三个泛化划分上进行任务执行，成功标准要求物体状态在目标值容忍范围内持续保持两秒钟。基准已集成对6D-CLIPort、PerAct等前沿模型的评估实现，并支持添加状态预测头等模型变体，便于开展消融研究。其实验流程严格模拟运动规划器的执行阶段，避免了因中间状态巧合达标而误判成功，确保了评估的严谨性。

背景与挑战

背景概述

在具身人工智能领域，如何使机器人系统理解并执行基于自然语言的精细操作指令，一直是核心研究难题。ARNOLD基准由加州大学洛杉矶分校、北京大学、清华大学及通用人工智能国家重点实验室等机构的研究团队于2023年联合创建，旨在推动语言赋能的连续状态任务学习。该数据集构建于高度逼真的3D物理仿真环境之上，包含八项涉及物体抓取、旋转、开关以及流体操控的机器人任务，其核心创新在于将语言指令与物体连续状态（如开合角度、液位高度）进行精准关联，突破了传统基准中离散状态假设的局限，为模拟到现实的策略迁移提供了关键测试平台。

当前挑战

ARNOLD所应对的领域挑战在于实现语言指令到连续物体状态的精确映射与泛化，这要求模型具备对三维场景的深度理解、对物体几何与动力学特性的感知，以及从抽象语言描述到具体物理量的推理能力。在构建过程中，研究团队面临多重挑战：一是需在高度逼真的仿真环境中模拟连续物体状态（如铰接体运动、粒子级流体），并确保物理交互的真实性；二是需设计涵盖多样场景、物体及状态配置的数据收集流程，以系统评估模型在未见目标状态、物体及场景上的泛化能力；三是需生成丰富且语义准确的语言指令模板，以支撑语言与状态的细粒度对齐。

常用场景

经典使用场景

在具身智能与机器人操作领域，ARNOLD 数据集为语言条件化的连续状态任务学习提供了标准化的评估平台。该数据集通过构建高度逼真的三维交互环境，模拟了包含连续物体状态变化的八项精细化操作任务，如拾取物体至指定高度、旋转物体至特定角度、开启抽屉或柜门至百分比开合度以及精确控制液体倾倒量等。研究者利用其提供的多视角视觉输入与模板化语言指令，系统评估智能体在语言指令引导下对连续目标状态的理解与执行能力，尤其关注模型在未见过的目标状态、物体及场景中的泛化性能。

衍生相关工作

ARNOLD 的推出催生并衔接了多项围绕语言接地与连续操作的研究工作。其设计理念与评估框架影响了后续对复杂操作任务中状态表示学习、多模态策略泛化以及仿真到真实迁移的探索。例如，基于类似连续状态建模思路的研究开始关注如何利用更强大的语言模型（如T5、LLMs）生成多样化指令，或结合扩散模型等生成式方法进行轨迹规划。同时，该数据集也被用于验证和改进如Perceiver-Actor、6D-CLIPort等先进语言条件化操作模型的泛化缺陷，推动了在三维体素表示、状态预测头设计以及多任务学习架构等方面的算法创新。

数据集最近研究