open-set tabletop language-guided dexterous grasp dataset

Name: open-set tabletop language-guided dexterous grasp dataset
Creator: 中山大学计算机科学与工程学院
Published: 2025-03-10 22:17:07
License: 暂无描述

arXiv2025-03-10 更新2025-03-12 收录

下载链接：

https://isee-laboratory.github.io/AffordDexGrasp/

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个开集桌面语言引导灵巧抓握数据集，用于评估灵巧抓握框架。数据集基于语言引导的灵巧抓握数据集构建，排除了训练集中的特定类别以测试模型的开放集泛化能力。数据集还包括高质量渲染的图像，以便 Multimodal Large Language Model (MLLM) 使用，并扩展到场景级数据以更好地模拟真实世界环境。

This study constructs an open-set desktop language-guided dexterous grasping dataset for evaluating dexterous grasping frameworks. Built upon an existing language-guided dexterous grasping dataset, this dataset excludes specific categories from the training split to test the open-set generalization ability of models. It also includes high-quality rendered images for use by Multimodal Large Language Models (MLLMs), and expands to scene-level data to better simulate real-world environments.

提供机构：

中山大学计算机科学与工程学院

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

为了解决高级行为语言与低级机器人动作之间的巨大差距，该框架采用了可泛化的指示性可及性表示，它通过利用对象的局部结构和类别不可知语义属性，有效地指导灵巧抓取生成。基于可及性，框架引入了Affordacne Flow Matching (AFM) 和 Grasp Flow Matching (GFM) 模型。AFM 生成基于语言的泛化可及性图，而 GFM 生成基于可及性的灵巧抓取姿势。此外，框架还引入了预理解阶段和抓取优化阶段来进一步提高泛化能力。预理解阶段使用多模态大型语言模型 (MLLM) 来增强对用户意图的理解，而优化阶段则通过可及性引导优化来提高抓取质量，同时保持与用户意图的一致性。为了评估框架，构建了一个开放集桌面语言引导灵巧抓取数据集，其中包含了 33 个类别，1536 个对象，1909 个场景和 43,504 个灵巧抓取。数据集分为两个部分，Open Set A 和 Open Set B，每个部分都排除了特定的类别以测试模型的开放集泛化能力。此外，还提供了高质量的渲染图像，以方便 MLLM 的使用，并将数据集扩展到场景级数据，以更好地模拟真实世界环境。

使用方法

该数据集的使用方法如下：首先，将用户语言命令和场景点云作为输入。然后，使用 MLLM 对用户意图进行预理解，提取关键线索，例如对象类别、用户意图、对象的接触部分和抓取方向。接着，AFM 生成基于语言的泛化可及性图，而 GFM 生成基于可及性的灵巧抓取姿势。最后，进行抓取优化，以提高抓取质量，同时保持与用户意图的一致性。在评估阶段，可以使用 FID、R-Precision 和 Chamfer Distance 等指标来评估抓取意图的一致性，使用成功率和 Q1 等指标来评估抓取质量，使用平移、旋转和关节角度的标准差来评估抓取多样性。

背景与挑战

背景概述

在机器人技术与计算机视觉领域，实现可泛化的机器人灵巧抓取是一个重要的研究目标，这将为人机交互和机器人操作等领域带来巨大的应用潜力。近期的研究探索了基于语言的灵巧抓取生成任务，旨在使灵巧手根据语言指令执行操作，超越以往仅关注稳定抓取的工作。然而，在开放的真实世界中，存在着许多训练时未曾出现的类别，而灵巧手的数据收集成本非常高。因此，在未见类别样本上进行开放集泛化对于机器人抓取至关重要。为了解决这个问题，我们提出了一个名为AffordDexGrasp的框架，该框架的核心思想是利用一种新的泛化-指导性可供性表示来弥合高级语言和低级抓取动作之间的差距。这种可供性表示可以通过利用物体的局部结构和类别不可知语义属性来泛化到未见类别，从而有效地指导灵巧抓取生成。

当前挑战

开放集语言引导灵巧抓取任务面临的主要挑战在于高级自然语言和低级机器人动作空间之间存在巨大的差距，这使得从训练域理解和抓取的能力难以泛化到未见类别。为了解决这个问题，我们提出了AffordDexGrasp框架，该框架利用一种新的可供性表示作为中间表示来弥合高级语言和低级抓取动作之间的差距。然而，实现这两个特征并不简单。例如，如图2所示，精细的接触信息可以有效地指导抓取生成或优化，但难以泛化到未见类别。另一方面，例如物体部分等粗略信息可以从预训练的计算机视觉模型中获得，但对于具有更高自由度的灵巧手来说，它太粗略，无法指导动作。为了实现这两个特征，我们提出了泛化-指导性可供性，通过定义一个与类别无关的信息（如意图、物体部分和方向）相一致的通用抓取可供性来定义。如图2所示，可供性表示所有具有相同语义的抓取的潜在抓取区域。通过这种方式，模型不需要学习复杂的灵巧接触模式，而是专注于一个通用的抓取区域，它可以与类别不可知的语义属性很好地对齐，并有效地指导抓取生成。为了生成可供性并将其用于指导抓取生成，我们的框架包括两个级联生成模型。可供性流匹配根据语言生成可供性图，抓取流匹配在可供性的有效指导下生成灵巧抓取姿势。此外，我们引入了预理解阶段和姿态优化阶段，以进一步提高泛化能力。

常用场景

经典使用场景

在机器人领域，语言引导的灵巧抓取技术一直是一个研究热点，旨在使机器人能够根据人类的指令来抓取和操作物体。然而，现有的数据驱动方法在处理开放集场景（即训练数据中未出现的类别）时，往往难以理解和执行抓取动作。为了解决这个问题，本研究提出了一个名为AffordDexGrasp的框架，它通过一种新的通用-指导性功能表示来弥合高级语言语义和低级机器人动作之间的巨大差距。这种功能表示可以通过利用物体的局部结构和类别无关的语义属性，从而有效地指导灵巧抓取生成。该框架包括预理解阶段、功能流匹配和抓取流匹配，以及抓取后优化阶段。预理解阶段通过多模态大型语言模型（MLLM）来预理解用户的意图，从而增强模型对不同用户指令的泛化能力。功能流匹配生成基于语言的通用功能图，而抓取流匹配则在功能的指导下生成灵巧抓取姿态。此外，还引入了抓取后优化阶段，以进一步提高抓取质量，同时保持与用户意图的一致性。

解决学术问题

该数据集解决的主要学术问题是开放集场景下语言引导的灵巧抓取。现有的数据驱动方法在处理开放集场景时，往往难以理解和执行抓取动作。为了解决这个问题，本研究提出了一个名为AffordDexGrasp的框架，它通过一种新的通用-指导性功能表示来弥合高级语言语义和低级机器人动作之间的巨大差距。这种功能表示可以通过利用物体的局部结构和类别无关的语义属性，从而有效地指导灵巧抓取生成。该框架在模拟和现实世界中的大量实验表明，它在开放集泛化方面优于所有以前的方法，从而为开放集场景下的语言引导灵巧抓取提供了新的解决方案。

实际应用

该数据集在实际应用中具有广泛的应用前景，包括但不限于智能家居、工业自动化、医疗辅助等领域。通过利用该数据集，研究人员可以训练出能够根据人类指令进行灵巧抓取的机器人，从而实现更高效、更安全的操作。例如，在智能家居中，机器人可以按照用户的指令抓取和操作各种物体，如开关灯、调整温度等；在工业自动化中，机器人可以按照人类的指令抓取和操作各种工业产品，从而提高生产效率；在医疗辅助中，机器人可以按照医生的指令抓取和操作各种医疗设备，从而提高医疗效率。此外，该数据集还可以用于训练能够进行多任务操作的机器人，如抓取、搬运、放置等，从而提高机器人的实用性和灵活性。

数据集最近研究