Landmark-Aware Visual Navigation (LAVN) dataset

Name: Landmark-Aware Visual Navigation (LAVN) dataset
Creator: 罗格斯大学新不伦瑞克分校
Published: 2024-02-22 12:43:20
License: 暂无描述

arXiv2024-02-22 更新2024-06-21 收录

下载链接：

https://zenodo.org/records/10608067

下载链接

链接失效反馈

官方服务：

资源简介：

Landmark-Aware Visual Navigation (LAVN)数据集是由罗格斯大学新不伦瑞克分校等机构创建，旨在通过人类引导的环境探索视频，提供监督学习的环境探索策略和地图构建。该数据集包含310个轨迹，覆盖虚拟和真实世界环境，总计103,998帧，包含14,281个虚拟环境和300个真实世界环境。数据集的创建过程涉及收集RGB观察和人类点击配对，以及在探索过程中提供独特的地标示例。LAVN数据集的应用领域主要集中在视觉导航领域，旨在解决环境探索和地图构建的效率问题。

The Landmark-Aware Visual Navigation (LAVN) dataset was created by Rutgers University–New Brunswick and other institutions. It aims to provide supervised learning-based environment exploration policies and mapping via human-guided environment exploration videos. This dataset contains 310 trajectories, covering both virtual and real-world environments, with a total of 103,998 frames, including 14,281 virtual environments and 300 real-world environments. The dataset creation process involves collecting paired RGB observations and human clicks, as well as providing unique landmark examples during the exploration process. The LAVN dataset is primarily applied in the field of visual navigation, targeting the resolution of efficiency issues in environment exploration and mapping.

提供机构：

罗格斯大学新不伦瑞克分校

创建时间：

2024-02-22

搜集汇总

数据集介绍

构建方式

在视觉导航领域，构建高质量数据集对于推动基于学习的探索策略至关重要。Landmark-Aware Visual Navigation (LAVN) 数据集的构建采用了人机协同的标注范式，通过在虚拟与现实环境中采集人类专家的探索轨迹。具体而言，在高度逼真的Habitat虚拟环境以及多样化的真实室内外场景中，标注者以第一人称视角进行空间探索，并通过点击图像界面指定移动方向与关键地标。每次交互生成包含RGB观测、深度图像、真实里程计以及人类点击坐标的数据节点，最终形成以图结构组织的轨迹序列，每条轨迹在完成500次动作或完全探索空间后终止。

特点

该数据集的显著特征在于其首次系统性地融合了人类探索轨迹与地标标注信息，为监督式地图表示学习提供了独特资源。其覆盖范围兼具广度与深度，囊括了300个虚拟环境与10个真实世界场景，总计包含310条轨迹、近10.4万帧图像及超过1.4万个地标标注。区别于现有数据集，LAVN同时提供仿真与真实数据，且标注的地标信息能够有效简化拓扑地图构建与智能体定位任务。数据呈现高度的真实感与一致性，经过分辨率标准化处理，确保了跨域研究的可行性。

使用方法

LAVN数据集为视觉导航研究提供了多层次的监督学习框架。研究者可利用其中的人类点击坐标作为路径点预测的直接监督信号，训练智能体学习人类中心的探索策略。同时，标注的地标信息可用于训练地标检测网络，进而增强拓扑地图的构建能力与导航过程中的定位精度。数据集以JSON格式存储图结构信息，并附有工具链支持轨迹回放与数据处理，便于集成至现有导航模型中进行端到端训练或模块化评估。该资源尤其适用于图像目标导航、无交互模仿学习以及语义地图构建等前沿方向。

背景与挑战

背景概述

在视觉导航领域，随着人工智能技术的进步，移动智能代理如配送机器人日益成为研究焦点。然而，现有方法常面临计算复杂度高、内存消耗大及样本效率低等挑战。为应对这些难题，罗格斯大学与石溪大学的研究团队于2024年推出了Landmark-Aware Visual Navigation (LAVN)数据集。该数据集旨在通过人类专家演示，为监督式学习提供支持，以构建人本主义的探索策略与地图表示。LAVN涵盖了虚拟与现实环境中的多样化场景，包括室内房间与户外走道，通过提供RGB观测、深度图像、里程计及人类点选标注，为视觉导航模型的高效训练奠定了数据基础。

当前挑战

LAVN数据集致力于解决视觉导航中探索策略与地图构建的挑战。在领域层面，现有方法常依赖强化学习或复杂的手工特征设计，导致模型训练效率低下且难以泛化至真实世界。LAVN通过引入人类标注的路径点与地标，旨在简化探索任务，提升导航代理在未知环境中的适应能力。在构建过程中，团队需克服虚拟与现实环境数据采集的一致性难题，确保人类标注在模拟环境中的精确动作能与现实世界中的噪声和扰动相协调。此外，标注地标需在多样场景中保持语义一致性，以支持模型对拓扑地图的有效学习。

常用场景

经典使用场景

在视觉导航研究领域，LAVN数据集为探索策略与地图构建的监督学习提供了关键支撑。该数据集通过人类专家在虚拟与现实环境中采集的轨迹视频，结合RGB观测与点选标注，构建了包含显著地标信息的拓扑图表示。经典应用场景集中于训练智能体以人类中心化的方式进行环境探索，模型通过学习人类标注的路径点与地标，能够生成高效的探索策略，从而在未知环境中实现目标导向的导航任务。这种监督学习范式显著降低了传统强化学习方法对大量环境交互的需求，为视觉导航算法提供了更为稳定且可解释的训练基础。

衍生相关工作

LAVN数据集的发布催生了一系列相关研究工作，主要集中在监督式探索策略学习与地标增强的地图表示领域。基于该数据集，研究者开发了多种端到端的视觉导航模型，这些模型通过直接预测人类标注的路径点来实现高效探索。部分工作将地标信息融入拓扑图神经网络，提升了在未知环境中的长期定位与重规划能力。另有研究利用数据集中的多模态信息（RGB-D与轨迹标注）开发了联合学习框架，同步优化探索策略与地图构建模块。这些衍生工作显著推进了视觉导航领域从纯强化学习向监督与半监督学习范式的转变，并为认知启发的导航算法提供了新的实验平台。

数据集最近研究