LVIS-Aff

Name: LVIS-Aff
Creator: 北京大学人工智能研究所, 清华大学人工智能研究院, 中国科学院沈阳自动化研究所
Published: 2025-03-05 22:44:53
License: 暂无描述

arXiv2025-03-05 更新2025-03-07 收录

下载链接：

https://zhuxmmm.github.io/Afford-X

下载链接

链接失效反馈

官方服务：

资源简介：

LVIS-Aff 是一个大规模的数据集，包含 1,496 个任务和 119,000 张图片，旨在增强从感知到 affordance 推理的泛化能力。该数据集由北京大学人工智能研究所、清华大学人工智能研究院等单位支持创建，为任务导向的操作提供了丰富的视觉和文本信息。数据集涵盖了多种室内外场景，具有多样的任务、图片和目标物体类别，能够帮助机器人更好地理解和适应复杂多变的真实世界环境。

LVIS-Aff is a large-scale dataset comprising 1,496 tasks and 119,000 images, aimed at enhancing the generalization capability from perception to affordance reasoning. Developed with support from institutions including the Peking University Institute of Artificial Intelligence, Tsinghua University Institute for Artificial Intelligence, and other relevant entities, this dataset provides rich visual and textual information for task-oriented robotic manipulation. It covers a wide range of indoor and outdoor scenarios, featuring diverse tasks, images and target object categories, which enables robots to better understand and adapt to the complex and dynamic real-world environment.

提供机构：

北京大学人工智能研究所, 清华大学人工智能研究院, 中国科学院沈阳自动化研究所

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

LVIS-Aff数据集通过自动化流程构建，该流程利用大型语言模型（LLM）如GPT-4将对象检测数据集转换为丰富的任务-对象对。首先，LLM生成每个对象类别10个多样化的任务，建立一个初步的任务池。然后，LLM将任务与相关的对象类别进行匹配，并考虑常识偏好排名。接下来，LLM进行多级质量控制，过滤任务，验证对象-任务匹配排名，并删除不合适的对。最后，根据特定规则收集图像，保留每个任务中优先级最高的对象，并添加“something”到提示中，以平衡任务的具体性和视觉多样性。

特点

LVIS-Aff数据集的特点包括：1) 规模大，包含1,496个任务和119,000张图像；2) 任务多样，涵盖了1,064个对象类别；3) 图像质量高，图像来自COCO2014和LVIS2017的训练和验证集，保证了数据质量；4) 长尾分布，反映了自然对象功能的变化，为日常生活中的各种场景提供了全面的覆盖。

使用方法

LVIS-Aff数据集可用于训练和评估视觉 affordance 理解模型。通过使用该数据集训练的模型，可以自动识别和选择适合给定任务的对象，生成对象的检测边界框和细粒度分割掩码。此外，该数据集还可用于研究视觉 affordance 理解模型的泛化能力，通过在模拟环境中评估模型在不同场景和任务中的表现。

背景与挑战

背景概述

物体可操作性推理，即根据物体的物理属性推断其功能的能力，对于任务导向的规划和活动至关重要，无论是在人类还是人工智能（AI）中。这种能力对于以任务导向的方式规划和执行日常活动至关重要，它依赖于对物体物理和功能的一般知识，超越了简单的物体识别。当前，从感知中进行可操作性推理的计算模型缺乏泛化能力，限制了其在新型场景中的应用。同时，具有新兴推理能力的大型语言模型（LLM）难以在本地设备上进行任务导向的操作。在这里，我们介绍了LVIS-Aff，这是一个大型数据集，包含1,496个任务和119k张图像，旨在提高感知的可操作性推理的泛化能力。利用这个数据集，我们开发了一个端到端的可训练的可操作性推理模型Afford-X，它结合了动词注意力和双融合模块，以增强多模态理解。该模型在非LLM方法中实现了高达12.1%的性能提升，同时与我们的先前会议论文相比也实现了1.2%的提升。此外，它保持了187M参数的紧凑大小，并且比GPT-4V API推理速度快了近50倍。我们的工作展示了高效的、可泛化的可操作性推理模型，这些模型可以部署在本地设备上，用于任务导向的操作。我们在各种任务和环境中的机器人上展示了Afford-X在任务导向操作中的有效性，突出了其效率和广泛的现实应用意义。该工作部分得到了国家自然科学基金委员会（项目编号62376031）的支持。

当前挑战

当前的计算模型缺乏泛化能力，限制了其在新型场景中的应用。同时，具有新兴推理能力的大型语言模型（LLM）难以在本地设备上进行任务导向的操作。为了解决这些挑战，我们提出了LVIS-Aff，这是一个大型数据集，包含1,496个任务和119k张图像，旨在提高感知的可操作性推理的泛化能力。利用这个数据集，我们开发了一个端到端的可训练的可操作性推理模型Afford-X，它结合了动词注意力和双融合模块，以增强多模态理解。此外，我们还开发了一个自动化流程，利用LLM将物体检测数据集转换为可操作性推理数据集。这些数据集为模型提供了丰富的知识库，使其能够更有效地理解和执行各种任务。

常用场景

经典使用场景

LVIS-Aff 数据集主要被用于提升感知层面的泛化能力，为基于感知的物体可用性推理提供支持。Afford-X 模型是该数据集的产物，通过引入动词注意力模块和双融合模块，实现了多模态理解能力的提升。该模型在多模态可用性推理任务中表现出色，相较于非 LLM 方法，性能提升了 12.1%，与先前会议论文相比也有 1.2% 的提升。此外，该模型参数量仅为 187M，相较于 GPT-4V API，推理速度提高了近 50 倍。

衍生相关工作

LVIS-Aff 数据集的提出，为后续相关研究提供了重要的数据基础。基于 LVIS-Aff 数据集，研究人员可以开发更高效、泛化的可用性推理模型，进一步提升机器人在现实世界环境中的操作能力。此外，该数据集还可以用于评估和比较不同可用性推理模型的性能，推动该领域的研究进展。

数据集最近研究