GraspMolmo

Name: GraspMolmo
Creator: 艾伦人工智能研究所
Published: 2025-05-20 01:59:06
License: 暂无描述

arXiv2025-05-20 更新2025-05-21 收录

下载链接：

https://abhaybd.github.io/GraspMolmo/

下载链接

链接失效反馈

官方服务：

资源简介：

GraspMolmo数据集是艾伦人工智能研究所创建的一个大型合成数据集，用于训练机器人抓取模型。数据集名为PRISM，包含379k个样本，具有杂乱的场景和多样化的任务描述。该数据集的特点是场景复杂、任务描述丰富，能够帮助模型学习到更多实际应用中的抓取策略。

The GraspMolmo dataset is a large-scale synthetic dataset created by the Allen Institute for AI for training robotic grasping models. Officially named PRISM, this dataset contains 379k samples with cluttered scenes and diverse task descriptions. Characterized by complex scenes and rich task descriptions, it helps models learn more practical grasping strategies for real-world applications.

提供机构：

艾伦人工智能研究所

创建时间：

2025-05-20

原始信息汇总

GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation

概述

GraspMolmo是一个通用的开放词汇任务导向抓取模型，能够根据自然语言指令和单帧RGB-D图像预测语义合适且稳定的抓取方式。
该模型基于PRISM大规模合成数据集训练，该数据集包含379k样本，涵盖杂乱环境和多样化任务描述。
在真实世界评估中，GraspMolmo在复杂任务上的预测成功率达到70%，远超次优方法的35%。

数据集详情

PRISM数据集

全称：Purpose-driven Robotic Interaction in Scene Manipulation
规模：379k任务-抓取样本
组成：
- 使用2365个ShapeNet-Sem对象实例和ACRONYM的稳定抓取数据
- 构建10,000个独特多样化场景
- 每个场景捕获10个视角，每个视角包含多个任务

TaskGrasp-Image

来源：从TaskGrasp基准转换而来
特点：
- 保留原始TaskGrasp的地面真实标注
- 通过点云配准技术将抓取标注转换到图像坐标系
- 避免融合和分割伪影问题
- 支持RGB输入模型使用

评估结果

性能对比

方法	TaskGrasp-Image	PRISM-Test	PRISM-Real (Prediction)	PRISM-Real (Overall)
Random	54.5%	29.3%	-	-
GraspGPT	72.3%	40.0%	35.1%	24.0%
Molmo	75.6%	49.8%	33.7%	31.0%
GraspMolmo	76.7%	62.5%	70.4%	61.1%

真实世界评估场景

场景1：法压壶、厨房刀、马克杯
场景2：水瓶、水槽、喷雾瓶
场景3：书籍、电话、花+花瓶

双手机器抓取扩展

通过将双任务分解为两个单臂任务实现
示例："打开水瓶"分解为"提起水瓶"和"拧开瓶盖"

引用

bibtex @misc{deshpande2025graspmolmo, title={GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation}, author={Abhay Deshpande and Yuquan Deng and Arijit Ray and Jordi Salvador and Winson Han and Jiafei Duan and Kuo-Hao Zeng and Yuke Zhu and Ranjay Krishna and Rose Hendrix}, year={2025}, eprint={2505.13441}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2505.13441}, }

搜集汇总

数据集介绍

构建方式

GraspMolmo数据集的构建依托于PRISM，这是一个包含379k样本的大规模合成数据集，涵盖了杂乱环境和多样化的真实任务描述。数据生成过程首先从ShapeNet-Sem和ACRONYM数据集中选取91个物体类别，通过SceneSynthesizer进行场景合成，并引入光照变化和相机随机化以增强视觉多样性。每个场景从10个不同视角渲染，确保捕捉物体的多角度信息。随后，利用GPT-4o生成抓取描述，并通过人工验证确保描述的准确性和自然语言质量。最后，通过文本匹配将任务描述与抓取描述关联，形成任务-物体-抓取三元组。

特点

GraspMolmo数据集的特点在于其规模化和多样性。数据集包含10k个场景和2356个物体实例，覆盖了从简单到复杂的任务描述，如“切苹果”和“为沙拉切碎大蒜”。数据集中的场景具有真实的纹理、遮挡和多物体交互，增强了模型的泛化能力。此外，数据集通过自然语言描述抓取方式，将任务语义与几何抓取解耦，显著提高了数据标注的效率和可扩展性。

使用方法

GraspMolmo数据集的使用方法主要包括模型训练和评估。在训练阶段，基于PRISM-Train和TaskGrasp-Image数据，通过微调Molmo视觉语言模型，使其能够从单帧RGB-D图像和自然语言指令中预测6自由度抓取。在推理阶段，模型输出的抓取点与抓取提议网络生成的候选抓取进行匹配，选择最接近的抓取作为最终输出。数据集还支持在复杂真实场景中的零样本迁移评估，验证模型在未见过的物体和任务上的表现。

背景与挑战

背景概述

GraspMolmo是由Allen Institute for AI等机构于2025年提出的一个通用化任务导向抓取模型，旨在通过大规模合成数据生成解决机器人抓取中的语义理解问题。该模型基于PRISM数据集，包含379k个样本，覆盖复杂环境和多样化任务描述。GraspMolmo通过微调视觉语言模型Molmo，实现了对新颖开放词汇指令和物体的泛化能力，在真实世界复杂任务中取得了70%的预测成功率，显著优于现有方法。该研究推动了任务语义机器人操作领域的发展，为开放词汇条件下的功能性抓取提供了新范式。

当前挑战

GraspMolmo面临的挑战主要体现在两个方面：领域问题方面，传统任务导向抓取方法受限于小规模数据集、简化语言描述和非复杂场景，难以处理真实世界中复杂的语义理解和环境交互；数据构建方面，创建PRISM数据集需要解决大规模合成场景生成、多样化任务描述标注、以及跨模态数据对齐等难题，特别是如何确保合成数据到真实场景的有效迁移。此外，模型仍需依赖外部抓取提议生成器，且在精细旋转调整等场景下表现有限。

常用场景

经典使用场景

GraspMolmo数据集在机器人任务导向抓取领域展现了卓越的应用价值。该数据集通过大规模合成数据PRISM（包含379k样本）训练模型，使其能够根据自然语言指令和单帧RGB-D图像预测语义合理且稳定的抓取姿态。例如，在“倒茶”任务中，模型能准确选择茶壶把手而非壶身作为抓取点，体现了任务语义理解的核心能力。这一特性使其在复杂场景下的抓取任务中表现显著优于传统方法，成为机器人操作领域的重要基准。

衍生相关工作

该数据集催生了多项创新研究：1）GraspGPT通过语言模型增强抓取语义理解，但依赖物体分割和动作原语输入；2）FoundationGrasp利用基础模型实现跨类别抓取泛化；3）LERF-TOGO结合辐射场实现语言引导的抓取定位。这些工作共同推进了从纯几何抓取向多模态语义抓取的范式转变。PRISM数据集的开源进一步加速了RTAGrasp等基于人类示教迁移的研究，形成任务语义机器人操作的完整技术生态。

数据集最近研究