Affogato

Name: Affogato
Creator: 浦项科技大学 (POSTECH)
Published: 2025-06-14 01:57:18
License: 暂无描述

arXiv2025-06-14 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/project-affogato/affogato

下载链接

链接失效反馈

官方服务：

资源简介：

Affogato是一个大规模的数据集，包含150,000个实例，每个实例都有开放词汇文本描述和相应的3D可利用性热图。该数据集跨越了一系列多样的对象和交互。Affogato数据集由Affogato-Engine流水线自动生成，该流水线利用多视图渲染和最先进的视觉语言模型来创建具有不同对象类别的优质可利用性注释。Affogato数据集旨在解决智能体理解和与其环境交互的能力问题，特别是解决细粒度部分级定位、多个有效交互区域引起的歧义以及大规模数据集稀缺的问题。

Affogato is a large-scale dataset containing 150,000 instances, each paired with open-vocabulary textual descriptions and corresponding 3D affordance heatmaps. This dataset covers a diverse range of objects and interactions. The Affogato dataset is automatically generated via the Affogato-Engine pipeline, which leverages multi-view rendering and state-of-the-art vision-language models to create high-quality affordance annotations across different object categories. The Affogato dataset aims to address the challenges in enabling AI agents to understand and interact with their environments, specifically resolving issues including fine-grained part-level localization, ambiguity induced by multiple valid interaction regions, and the scarcity of large-scale datasets.

提供机构：

浦项科技大学 (POSTECH)

创建时间：

2025-06-14

搜集汇总

数据集介绍

构建方式

Affogato数据集通过自动化流程构建，利用Objaverse中的3D对象资产，结合Gemma3生成开放词汇的交互描述，Molmo定位交互点，以及SAM生成热图。通过多视角渲染和投票机制，将2D热图聚合为3D热图，确保空间覆盖和语义一致性。测试集经过人工验证和优化，确保数据质量。

特点

Affogato数据集是目前规模最大的3D功能基础数据集，包含150K个3D对象实例，每个实例配有五个开放词汇的交互描述和对应的3D热图。其特点在于多样性和规模远超现有数据集，覆盖450多个对象类别和350多种交互类型，支持开放词汇的跨领域泛化。

使用方法

Affogato数据集适用于3D和2D功能基础任务，可用于训练和评估模型在开放词汇环境下的性能。用户可通过提供的3D热图和2D渲染图进行模型训练，测试集经过人工验证，适合作为基准数据集。数据集还支持部分视图生成，模拟真实场景中的遮挡情况。

背景与挑战

背景概述

Affogato数据集由浦项科技大学的研究团队于2025年提出，是当前规模最大的开放词汇表3D功能基础数据集。该数据集基于Objaverse 3D资产库构建，包含15万个实例，每个实例标注了五种自由形式的交互描述文本及对应的3D热图。其核心研究目标是解决计算机视觉领域的功能基础任务——即根据自然语言描述定位物体交互区域。相较于先前受限于23个物体类别的3D功能数据集，Affogato通过自动化标注流程实现了超过450个物体类别和350种功能类型的覆盖，显著推动了开放词汇表场景下细粒度物体功能理解的发展。

当前挑战

在领域问题层面，Affogato致力于解决功能基础任务中的三大核心挑战：1) 同一物体不同区域存在多重有效功能（如杯子可握持/饮用/投掷）；2) 功能区域边界模糊（如椅子座面与靠背的承重区域）；3) 开放词汇描述带来的语义歧义（如'按压'在不同物体上的具体表现）。在构建过程中面临的主要挑战包括：1) 多视角预测的一致性整合，需通过投票机制消除单视角标注偏差；2) 基础模型（Gemma3/Molmo/SAM）的协同优化，确保文本生成与空间定位的协同精度；3) 大规模3D-2D标注投影时的几何对齐问题，需精确处理深度信息与相机参数。

常用场景

经典使用场景

在计算机视觉与机器人交互领域，Affogato数据集为开放词汇的3D功能接地任务提供了大规模基准。其核心应用场景包括通过自然语言描述定位物体交互区域，例如根据“调节亮度”或“插入电脑”等文本指令，在3D点云或2D图像中预测对应的功能热图。该数据集通过自动化流程生成15万实例的多样化标注，显著提升了模型在跨模态（3D/2D）和跨领域场景下的泛化能力。

衍生相关工作

Affogato催生了三大方向的研究：1）跨模态基准整合（如Espresso模型统一处理3D点云与2D图像）；2）基于基础模型的自动化标注框架（如Molmo+SAM的迭代优化方案启发了SceneFun3D的场景功能分割）；3）开放词汇评估体系（推动AGD20K等数据集从固定类别转向自由文本查询）。相关成果包括3D AffordanceLLM的LLM增强标注、SeqAfford的序列化功能推理等，形成了功能接地领域的新范式。

数据集最近研究