HM3D-OVON

Name: HM3D-OVON
Creator: 佐治亚理工学院
Published: 2024-09-22 10:12:29
License: 暂无描述

arXiv2024-09-22 更新2024-09-26 收录

下载链接：

https://naoki.io/portfolio/ovon

下载链接

链接失效反馈

官方服务：

资源简介：

HM3D-OVON数据集是由佐治亚理工学院创建的，旨在扩展对象目标导航（ObjectNav）任务的语义范围。该数据集包含超过15,000个家庭对象的注释实例，涵盖379个不同的类别，这些数据来源于真实世界的3D扫描环境。与传统的ObjectNav数据集不同，HM3D-OVON支持在测试时通过自由形式的语言定义开放词汇的目标对象。数据集的创建过程包括对真实世界环境的3D扫描和对象注释，确保了数据的真实性和多样性。HM3D-OVON主要应用于开发能够根据自由形式语言指令在真实世界环境中导航并找到指定对象的机器人助手，旨在解决对象导航任务中的开放词汇问题。

The HM3D-OVON dataset was created by the Georgia Institute of Technology to expand the semantic scope of the object goal navigation (ObjectNav) task. It contains over 15,000 annotated instances of household objects spanning 379 distinct categories, with all data sourced from real-world 3D scanned environments. Unlike traditional ObjectNav datasets, HM3D-OVON supports defining open-vocabulary target objects via free-form natural language during testing. The dataset's creation process includes 3D scanning of real-world environments and object annotation, ensuring the authenticity and diversity of the collected data. HM3D-OVON is primarily applied to develop robotic assistants that can navigate real-world environments and locate specified objects based on free-form natural language instructions, aiming to address the open-vocabulary challenge in the object navigation task.

提供机构：

佐治亚理工学院

创建时间：

2024-09-22

搜集汇总

数据集介绍

构建方式

HM3D-OVON数据集的构建基于Habitat-Matterport 3D Semantics (HM3DSem)数据集，通过整合超过15,000个家庭物品的注释实例，涵盖379个不同的类别。这些数据源自真实世界环境的逼真3D扫描。与早期ObjectNav数据集不同，HM3D-OVON在测试时通过自由形式语言定义开放目标集，从而扩展了目标对象的语义范围。数据集的构建包括三个评估分组：VAL SEEN（训练中见过的目标类别）、VAL SEEN SYNONYMS（与训练中见过的类别语义相似的目标类别）和VAL UNSEEN（训练中未见且语义不相似的目标类别），以系统评估模型对新目标类别和环境的泛化能力。

特点

HM3D-OVON数据集的主要特点在于其开放词汇表的目标导航任务，允许在测试时通过自由形式语言指定目标对象，从而推动视觉语义导航行为的学习。此外，该数据集包含大量真实世界环境的3D扫描，提供了丰富的语义多样性和真实感，相较于合成场景更能代表现实条件。数据集的评估分组设计精细，能够全面考察模型对不同语义相似度目标类别的泛化能力，为开发更具灵活性和人类化的语义视觉导航机器人提供了坚实基础。

使用方法

HM3D-OVON数据集适用于训练和评估开放词汇表目标导航模型，特别适合于研究视觉语义导航行为。使用者可以通过模仿学习（IL）、强化学习（RL）和模块化方法等多种学习范式进行模型训练。数据集提供了详细的训练和评估分组，包括VAL SEEN、VAL SEEN SYNONYMS和VAL UNSEEN，以评估模型在不同语义相似度目标类别上的表现。此外，数据集还提供了丰富的失败模式分析，帮助研究者理解和改进模型的导航行为，推动更具鲁棒性和泛化能力的视觉语义导航机器人的开发。

背景与挑战

背景概述

HM3D-OVON数据集，全称为Habitat-Matterport 3D Open Vocabulary Object Goal Navigation，由Naoki Yokoyama、Ram Ramrakhya、Abhishek Das、Dhruv Batra和Sehoon Ha等研究人员在佐治亚理工学院和Meta公司合作开发。该数据集于2024年发布，旨在扩展和深化对象目标导航（ObjectNav）领域的研究。HM3D-OVON利用HM3D-Sem数据集，包含了超过15,000个家庭物品的注释实例，涵盖379个不同类别，这些数据源自真实世界环境的逼真3D扫描。与先前的ObjectNav数据集相比，HM3D-OVON在测试时通过自由形式语言定义开放目标集，推动了视觉语义导航行为的学习，使其能够搜索任何通过文本指定的对象。

当前挑战

HM3D-OVON数据集面临的挑战主要集中在两个方面：一是解决对象目标导航任务中目标对象类别有限的固有问题，传统数据集通常仅限于6-21个预定义类别，这限制了模型的泛化能力；二是构建过程中需要处理大量真实世界环境的3D扫描数据，确保数据的多样性和真实性。此外，如何在开放词汇设置下评估和训练模型，使其能够处理训练过程中未见过的对象类别，也是该数据集需要克服的重要挑战。通过这些挑战，HM3D-OVON旨在推动机器人助手在室内环境中执行复杂任务的能力，如根据自由形式语言指令找到特定物品。

常用场景

经典使用场景

HM3D-OVON数据集的经典使用场景在于训练和评估开放词汇对象导航（ObjectNav）模型。该数据集通过提供超过15,000个标注实例和379个不同类别的家庭物品，支持模型在测试时通过自由形式语言定义开放目标集。这种开放词汇的设定鼓励了视觉语义导航行为的进展，使得模型能够搜索并导航至任何通过文本指定的对象。

衍生相关工作

HM3D-OVON数据集的发布催生了多项相关研究工作，特别是在开放词汇对象导航和视觉语义导航领域。例如，基于该数据集的研究提出了多种学习范式，包括模仿学习、强化学习和模块化方法，以提升模型的导航和对象识别能力。此外，数据集的开放词汇特性也激发了对开放词汇对象检测和语义理解的研究。

数据集最近研究