GOAT-Bench

Name: GOAT-Bench
Creator: 乔治亚理工学院
Published: 2024-04-10 04:40:00
License: 暂无描述

arXiv2024-04-10 更新2024-07-23 收录

下载链接：

https://mukulkhanna.github.io/goat-bench/

下载链接

链接失效反馈

官方服务：

资源简介：

GOAT-Bench是由乔治亚理工学院创建的多模态终身导航基准数据集，包含约725,000个训练集条目。该数据集旨在评估和推动多模态目标导航技术的发展，特别是针对开放词汇目标的导航。数据集涵盖了多种目标类型，包括类别名称、语言描述和图像，支持终身学习场景下的导航任务。GOAT-Bench通过其开放词汇和终身学习的特性，为构建通用、多模态的终身导航系统提供了重要的测试平台。

GOAT-Bench is a multimodal lifelong navigation benchmark dataset developed by the Georgia Institute of Technology, which contains approximately 725,000 training set entries. This dataset is designed to evaluate and advance the development of multimodal object navigation technologies, especially open-vocabulary object navigation. It covers a wide range of target types including category names, natural language descriptions and images, and supports navigation tasks in lifelong learning scenarios. With its open-vocabulary and lifelong learning features, GOAT-Bench provides an important testbed for building general-purpose, multimodal lifelong navigation systems.

提供机构：

乔治亚理工学院

创建时间：

2024-04-10

搜集汇总

数据集介绍

构建方式

GOAT-Bench 数据集的构建采用了 HM3DSem 场景数据，这些数据是通过真实世界的 3D 扫描获得的。数据集包含了 181 个 HM3DSem 场景，312 个对象类别和 680,000 个场景。为了生成开放词汇的目标，数据集使用了 HM3DSem 数据集中的密集语义注释，并通过扩展 OBJECTGOAL NAVIGATION 任务到开放词汇设置来构建 OVON 目标。此外，数据集还通过使用 VLM 和 LLM 的推理能力，结合模拟器中的语义和空间信息，自动生成了语言描述。每个场景包含 5 到 10 个子任务，每个子任务的目标通过不同的模态指定，包括对象类别、语言描述或图像。为了评估终身学习的能力，每个场景在目标达到后不会重置，而是在同一环境中继续进行下一个子任务。

特点

GOAT-Bench 数据集具有以下特点：1. 开放词汇，多模态目标：它是一个开放词汇基准，能够包含广泛的开放词汇目标，包括训练期间未遇到的那些目标。2. 终身学习：每个场景包含 5 到 10 个目标，这些目标通过不同的模态指定，从而为评估终身学习提供了一个基准。3. 多样化的场景：数据集包含 181 个 HM3DSem 场景，这些场景是从真实世界 3D 扫描中获得的，提供了多样化的室内环境。4. 完整的语义信息：数据集使用 HM3DSem 数据集中的密集语义注释，提供了丰富的对象类别信息。

使用方法

使用 GOAT-Bench 数据集的方法包括：1. 感知到动作的神经网络（SenseAct-NN）方法：使用端到端强化学习训练的神经网络策略，可以处理不同的模态目标。2. 模块化学习方法：将每个任务组件（探索、最后一英里导航和对象检测）的单独模块链接起来，以解决任务。3. 使用记忆：在终身学习场景中，方法可以访问内存，以回忆之前遇到的对象和环境中的特定区域。4. 评估指标：使用成功率（SR）和成功加权路径长度（SPL）来评估导航效率。

背景与挑战

背景概述

GOAT-Bench 是一个由 Georgia Institute of Technology 的 Mukul Khanna 等研究人员创建的多模态终身导航基准数据集。该数据集旨在促进通用导航模型的发展，这些模型能够处理各种目标类型，从而实现机器人与用户之间更有效的交互。GOAT-Bench 的创建是为了应对当前导航模型只能处理单一输入模态的局限性，并推动向能够处理各种目标类型的通用导航模型的发展。该数据集包含 181 个 HM3DSem 场景，312 个对象类别和 680k 个场景，具有开放词汇和多模态目标的特点，并能够利用环境中的过去经验进行终身学习。

当前挑战

GOAT-Bench 面临的挑战包括：1) 领域问题：构建能够处理各种目标类型（如对象类别、语言描述和图像）的通用导航模型，以便机器人能够与用户进行更有效的交互。2) 构建过程中遇到的挑战：创建开放词汇和多模态目标的数据集，并确保机器人能够利用环境中的过去经验进行终身学习。

常用场景

经典使用场景

GOAT-Bench 数据集是一个多模态终身导航任务的标准测试平台，旨在推动构建能够处理各种目标类型（例如，通过类别名称、语言描述或图像指定的目标）的通用导航模型。这个数据集的经典使用场景包括评估模块化和整体式方法在导航任务中的性能，分析这些方法在处理不同模态输入、使用显式和隐式场景记忆、对目标规格中的噪声的鲁棒性，以及记忆在终身场景中的影响。GOAT-Bench 数据集通过包含开放词汇的多模态目标和终身学习场景，为研究通用导航模型提供了一个强大的工具。

实际应用

GOAT-Bench 数据集的实际应用场景包括但不限于：1) 机器人导航：GOAT-Bench 数据集可以用于训练和评估机器人在不同场景下的导航能力，例如，在家庭环境中导航到特定的物体或地点。2) 增强现实（AR）和虚拟现实（VR）：GOAT-Bench 数据集可以用于开发 AR 和 VR 应用，例如，在虚拟环境中导航到特定的地点或物体。3) 智能家居：GOAT-Bench 数据集可以用于开发智能家居系统，例如，让机器人根据用户的语音指令导航到特定的物体或地点。GOAT-Bench 数据集的实际应用场景具有广泛的应用前景，可以为导航研究和其他相关领域的发展提供重要的支持。

衍生相关工作

GOAT-Bench 数据集的发布推动了导航研究的发展，并衍生出许多相关的经典工作。例如，一些研究利用 GOAT-Bench 数据集来评估和比较不同的导航模型，例如，模块化方法和端到端训练方法。此外，一些研究利用 GOAT-Bench 数据集来研究导航模型中的记忆表示，例如，显式和隐式场景记忆。这些相关研究不仅推动了导航模型的发展，还为终身学习场景下的导航问题提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集