DIVSCENE

Name: DIVSCENE
Creator: 香港科技大学、腾讯AI实验室、Robotics X、腾讯、宾夕法尼亚大学
Published: 2024-10-04 01:49:28
License: 暂无描述

arXiv2024-10-04 更新2024-10-09 收录

下载链接：

https://arxiv.org/pdf/2410.02730v1

下载链接

链接失效反馈

官方服务：

资源简介：

DIVSCENE数据集由香港科技大学和腾讯AI实验室联合创建，旨在为对象导航任务提供多样化的场景类型。该数据集包含4,614个场景，涵盖81种不同的场景类型，通过使用GPT-4和Holodeck框架自动生成。数据集的创建过程包括场景类型的收集、属性分配、文本描述生成和环境构建。DIVSCENE数据集主要用于测试和提升基于大型视觉语言模型的导航代理在多样化和复杂环境中的导航能力，旨在解决现实世界应用中对象导航的泛化问题。

提供机构：

香港科技大学、腾讯AI实验室、Robotics X、腾讯、宾夕法尼亚大学

创建时间：

2024-10-04

搜集汇总

数据集介绍

构建方式

DIVSCENE数据集通过结合MIT Scenes Dataset和GPT-4的强大生成能力构建而成。首先，从MIT Scenes Dataset中选择了81种场景类型，并将其分为五大类。随后，利用GPT-4自动生成多样化的房屋描述，这些描述通过添加如房间风格、用户类型等属性来增强场景的多样性。生成的描述随后输入到Holodeck框架中，自动构建出4,614个不同场景类型的房屋。此外，利用Objaverse的对象资产，这些房屋中包含了超过22,000种不同的对象，为测试多样化的对象导航提供了理想的环境。

使用方法

DIVSCENE数据集主要用于训练和评估基于大型视觉语言模型（LVLM）的具身代理。通过在DIVSCENE上进行模仿学习，代理能够学习如何在多样化的场景中导航到指定的目标对象。具体使用方法包括：首先，利用数据集中的最短路径数据进行模仿学习，训练LVLM生成下一步行动；其次，通过引入CoT解释追踪，帮助LVLM更好地理解对象导航的内在逻辑；最后，通过在DIVSCENE上的广泛实验，评估代理在不同场景和对象上的导航能力，并进行必要的调整和优化。

背景与挑战

背景概述

DIVSCENE数据集由香港科技大学和腾讯AI实验室的研究团队于近期创建，旨在解决未知环境中物体导航的关键问题。该数据集包含4,614个场景，跨越81种不同的类型，为构建能够在多样化和复杂环境中导航的实体代理提供了全面的基准。DIVSCENE的核心研究问题是如何在大量不同类型的场景中导航到多样化的目标物体，这一问题的解决对于在现实世界应用中部署实体代理至关重要。通过引入DIVSCENE，研究团队不仅推动了物体导航技术的发展，还为相关领域的研究提供了新的视角和方法。

当前挑战

DIVSCENE数据集面临的挑战主要集中在两个方面。首先，构建过程中需要处理大量不同类型的场景和目标物体，这要求数据集在多样性和复杂性上达到前所未有的水平。其次，为了训练能够有效导航的实体代理，研究团队必须克服在模仿学习和强化学习中常见的局限性，如有限的场景类型和目标物体种类，以及在真实世界应用中由于分布偏移导致的性能下降。此外，构建过程中还需要解决如何高效生成和验证大量场景描述的问题，以确保数据集的质量和实用性。

常用场景

经典使用场景

DIVSCENE数据集的经典使用场景在于评估和训练基于大型视觉语言模型（LVLM）的实体代理，以实现多样场景中的目标导航。通过该数据集，研究者可以构建端到端的实体代理，如NATVLM，通过模仿学习在由BFS规划器构建的最短路径上进行微调。这种场景不仅涵盖了多种目标对象，还涉及广泛的场景类型，从而提高了模型的泛化能力和实际应用中的适应性。

解决学术问题

DIVSCENE数据集解决了现有研究中主要集中在有限场景类型和目标对象上的问题。通过提供包含81种不同场景类型的4,614个场景，该数据集显著增强了模型的泛化能力，使其在面对多样化和未见过的对象和场景时表现更为出色。这不仅推动了对象导航领域的研究进展，还为其他基于导航的实体任务提供了基础，具有重要的学术意义和影响力。

实际应用

DIVSCENE数据集在实际应用中具有广泛的前景，特别是在需要实体代理在未知环境中导航的领域，如智能家居、服务机器人和自动驾驶等。通过训练基于该数据集的模型，可以显著提高代理在复杂和多样化环境中的导航能力，从而实现更高效和准确的目标定位和操作。这种能力对于提升用户体验和系统性能至关重要。

数据集最近研究