RAGNet

Name: RAGNet
Creator: 中国香港中文大学, 中国科学院计算技术研究所, Dexmal, 阿联酋人工智能大学, 澳门大学
Published: 2025-08-01 01:17:05
License: 暂无描述

arXiv2025-08-01 更新2025-08-07 收录

下载链接：

https://github.com/wudongming97/AffordanceNet

下载链接

链接失效反馈

官方服务：

资源简介：

RAGNet 是一个面向抓取的大规模推理式交互分割基准数据集，由香港中文大学、中国科学院计算技术研究所、Dexmal、阿联酋人工智能大学和澳门大学的研究人员共同创建。数据集包含 273,000 张图像、180 个类别和 26,000 条推理指令。这些图像覆盖了各种具身数据领域，包括野外、机器人、自我中心室内和模拟数据。图像被仔细标注了交互分割图，而语言指令的难度则通过移除类别名称并只提供功能描述而大大增加。RAGNet 的创建旨在解决当前研究中缺乏推理式大规模交互预测数据的问题，从而提高开放世界的有效性。数据集的应用领域是机器人抓取，旨在通过人类指令在多样性的开放世界场景中进行准确的物体交互分割。该数据集的创建过程包括收集各种来源的数据、使用多种工具进行交互分割标注以及利用大型语言模型生成推理指令。

RAGNet is a large-scale reasoning interactive segmentation benchmark dataset for robotic grasping. It was co-created by researchers from The Chinese University of Hong Kong, Institute of Computing Technology of the Chinese Academy of Sciences, Dexmal, Mohamed bin Zayed University of Artificial Intelligence, and University of Macau. The dataset contains 273,000 images, 180 object categories, and 26,000 reasoning instructions. These images span a diverse range of embodied data domains, including in-the-wild, robotic, egocentric indoor, and simulated datasets. The images are meticulously annotated with interactive segmentation masks, while the difficulty of the language instructions is substantially elevated by omitting category names and only providing functional descriptions. RAGNet was developed to address the critical gap of large-scale reasoning interactive prediction data in current research, thereby improving model performance in open-world scenarios. The targeted application domain of this dataset is robotic grasping, which aims to enable accurate object interactive segmentation in diverse open-world scenarios via human instructions. The creation workflow of this dataset includes collecting data from diverse sources, performing interactive segmentation annotation with multiple annotation tools, and generating reasoning instructions using large language models (LLMs).

提供机构：

中国香港中文大学, 中国科学院计算技术研究所, Dexmal, 阿联酋人工智能大学, 澳门大学

创建时间：

2025-08-01

搜集汇总

数据集介绍

构建方式

RAGNet数据集通过整合来自多个公开数据集（如HANDAL、Open-X、EgoObjects、GraspNet等）的273,000张图像构建而成，覆盖了野外、机器人、自我中心视角和仿真数据等多种领域。数据标注采用了一套优先级工具组合，包括原始掩码、SAM2、Florence2+SAM2、VLPart+SAM2以及人工标注，确保了标注的精确性和多样性。此外，利用GPT-4生成了26,000条基于推理的指令，分为模板指令、简单推理指令和复杂推理指令，以模拟真实的人类交互场景。

特点

RAGNet数据集以其规模大、多样性高和标注精细著称。它涵盖了180个对象类别，每个类别都经过精心标注，包括可抓取区域的掩码和功能描述。数据集的独特之处在于其基于推理的指令设计，特别是复杂推理指令，不直接提及对象类别名称，而是通过功能描述引导模型识别目标对象，从而增强了模型的开放世界泛化能力和复杂推理能力。此外，数据集还包含了多个验证集，用于评估模型在零样本类别识别和跨域预测中的表现。

使用方法

RAGNet数据集主要用于训练和评估开放世界中的机器人抓取系统。研究人员可以利用该数据集训练视觉语言模型（如AffordanceVLM），使其能够根据人类指令准确预测对象的可抓取区域。数据集中的推理指令可用于测试模型的语言理解和推理能力。此外，数据集还支持将2D可抓取区域掩码转换为3D抓取姿态，适用于真实机器人和仿真环境中的抓取任务。具体使用时，建议结合AffordanceNet框架，以实现从视觉感知到实际抓取的全流程部署。

背景与挑战

背景概述

RAGNet是由香港中文大学、中国科学院计算技术研究所、Dexmal、穆罕默德·本·扎耶德人工智能大学和澳门大学的研究团队于2025年提出的一个大规模基于推理的功能分割基准数据集，旨在推动通用机器人抓取系统的发展。该数据集包含273,000张图像，覆盖180个类别，并附有26,000条推理指令，涵盖了野外、机器人、自我中心视角和仿真等多种数据领域。RAGNet通过提供高质量的功能分割标注和复杂的推理指令，显著提升了机器人对开放世界中多样化场景的理解和操作能力。

当前挑战

RAGNet面临的挑战主要包括两个方面：首先，在领域问题方面，该数据集旨在解决机器人抓取中的功能感知问题，特别是在开放世界场景中，如何准确理解人类指令并识别物体的可抓取区域。其次，在构建过程中，研究人员需要处理来自不同数据源的图像，并确保标注的一致性和准确性，同时生成复杂的推理指令以模拟真实的人类交互。这些挑战需要通过创新的标注工具和语言模型的支持来克服。

常用场景

经典使用场景

RAGNet数据集在机器人抓取领域具有广泛的应用场景，特别是在开放世界环境下的物体功能性区域分割任务中。该数据集通过大规模、多样化的图像数据，涵盖了野外、机器人、自我中心视角和仿真等多种数据域，为研究者提供了丰富的训练和验证资源。其独特的基于推理的指令设计，使得模型能够更好地理解人类高级指令，从而在复杂场景中实现精确的物体抓取。

解决学术问题

RAGNet数据集解决了当前研究中缺乏基于推理的大规模功能性区域预测数据的问题，显著提升了开放世界环境下的物体抓取效果。通过提供273k张图像、180个类别和26k条推理指令，该数据集不仅增强了模型在未见过的物体类别和图像域中的泛化能力，还优化了语言指令与视觉任务的对齐，为机器人抓取系统的智能化发展奠定了坚实基础。

衍生相关工作

RAGNet数据集衍生了一系列经典研究工作，特别是在基于视觉语言模型（VLM）的功能性区域预测领域。例如，AffordanceNet框架通过结合RAGNet的大规模数据，实现了开放世界中的功能性区域分割和抓取姿态生成。此外，该数据集还推动了诸如ManipVQA和AffordanceLLM等研究的发展，这些工作进一步探索了复杂推理与机器人抓取的结合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集