NavRAG
收藏github2025-03-06 更新2025-02-27 收录
下载链接:
https://github.com/MrZihan/NavRAG
下载链接
链接失效反馈官方服务:
资源简介:
NavRAG是一个检索增强生成框架,用于为视觉语言导航生成用户需求指令。NavRAG利用LLM构建从全局布局到局部细节的3D场景描述树,然后模拟具有特定需求的用户角色从场景树中检索,生成多样化的指令。
NavRAG is a retrieval-augmented generation framework designed for generating user demand instructions for vision-language navigation. NavRAG leverages LLMs to construct a 3D scene description tree spanning from global layout to local details, then simulates user roles with specific requirements to retrieve information from the scene tree and generate diverse instructions.
创建时间:
2025-02-16
原始信息汇总
NavRAG 数据集概述
数据集简介
- 名称:NavRAG
- 用途:为具身导航生成用户需求指令
- 领域:视觉与语言导航(VLN)
- 核心问题:解决手动标注数据成本高、现有指令与用户沟通风格不匹配、局部导航轨迹忽略全局上下文等问题
数据集特点
- 数据规模:标注超过200万条导航指令,覆盖861个场景
- 生成方法:采用检索增强生成(RAG)框架,利用LLM构建分层场景描述树
- 多样性:模拟不同用户角色生成多样化指令
数据集内容
- 场景数据:
- Matterport3D (MP3D)
- Habitat-Matterport 3D (HM3D)
- 预训练特征文件:包含在数据下载包中
- 检查点文件:包含在数据下载包中
获取方式
- 下载地址:
- TeraBox: https://1024terabox.com/s/1D5HEHsaW5AcWTjjIO15jpA
- 百度网盘: https://pan.baidu.com/s/15UoGbtPU3A9XPrq3R9fDsg?pwd=2fny
相关工具
- 模拟器要求:
- Matterport3D模拟器
- Habitat模拟器(可选)
使用方法
-
预训练: bash cd VLN-DUET-NAVRAG/pretrain_src bash run_rag_h14.sh "0,1" 2345
-
微调/评估: bash cd VLN-DUET-NAVRAG/map_nav_src bash scripts/rag_h14_envedit_mix.sh "0,1" 2346
引用格式
bibtex @article{wang2025navrag, title={NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM}, author={Wang, Zihan and Zhu, Yaohui and Lee, Gim Hee and Fan, Yachun}, journal={arXiv preprint arXiv:2502.11142}, year={2025} }
相关资源
- 论文地址:https://arxiv.org/abs/2502.11142
- 基础代码库:
- DUET: https://github.com/cshizhe/VLN-DUET
- ScaleVLN: https://github.com/wz0919/ScaleVLN
- BEVBert: https://github.com/MarSaKi/VLN-BEVBert
搜集汇总
数据集介绍

构建方式
NavRAG数据集的构建采用了一种检索增强的生成(RAG)框架,该框架首先利用大型语言模型(LLM)构建了一个从全局布局到局部细节的分层场景描述树,以实现对三维场景的深入理解。随后,框架模拟具有特定需求的多样化用户角色,从场景树中检索信息,再次利用LLM生成满足用户需求的导航指令。数据集的构建不仅包含了超过861个场景的超过200万条导航指令,而且这些指令是通过模拟真实用户需求生成的,从而确保了数据的多样性和实用性。
特点
NavRAG数据集的特点在于其创新性地采用了检索增强的生成框架,这使得生成的导航指令不仅符合用户的交流风格,还能够充分结合场景的全局上下文和高层次任务规划。数据集的覆盖面广,场景多样,且每条指令都是根据用户的具体需求生成,从而为视觉语言导航的研究提供了丰富的、贴近实际应用的数据资源。
使用方法
使用NavRAG数据集首先需要安装Matterport3D模拟器进行模型预训练,随后可以从TeraBox下载数据集、预处理的特征文件和检查点。对于获取RGB-D图像,可以选择安装Habitat模拟器并下载Matterport3D场景或Habitat-Matterport 3D场景。数据集的生成涉及多个步骤,包括获取图像、生成场景概要、划分区域、生成指令以及转换为数据集格式。这些步骤均通过相应的脚本和Python程序实现。
背景与挑战
背景概述
NavRAG数据集是在机器视觉与自然语言处理交叉领域的重要成果,旨在推动具身导航代理在三维环境中根据自然语言指令进行导航的能力。该数据集由Zihan Wang, Yaohui Zhu, Gim Hee Lee, Yachun Fan等研究人员于2025年提出,以解决手动注释数据成本高昂的难题,并通过大规模的导航指令生成,促进视觉与语言导航技术的发展。NavRAG利用检索增强生成(RAG)框架,通过模拟不同用户角色的具体需求,从全局布局到局部细节构建场景描述树,生成了超过200万的导航指令,覆盖861个场景,对模型的数据质量和导航性能进行了评估,对相关领域产生了显著影响。
当前挑战
该数据集在构建过程中面临的主要挑战包括:如何生成与用户沟通风格相匹配的简洁导航指令,以及如何克服局部导航轨迹中忽略全局上下文和高层次任务规划的缺陷。此外,数据集的构建还涉及到大规模场景描述树的构建与注释,这对计算资源和人工标注都是一大考验。在实际应用中,还需解决如何有效集成检索增强生成框架与语言模型,以及如何在保持数据多样性的同时,确保生成的指令符合实际导航需求等问题。
常用场景
经典使用场景
NavRAG数据集在视觉与语言导航领域具有显著的应用价值,其经典使用场景在于通过检索增强的语言模型生成满足用户需求的导航指令。该数据集使得智能体能够在三维环境中,依据自然语言指令进行导航,从而提高导航模型的性能。
解决学术问题
NavRAG数据集解决了手动标注数据成本高昂的问题,通过构建层次化的场景描述树,为三维场景理解提供了全局布局到局部细节的描述。此外,该数据集还模拟了具有特定需求的多种用户角色,从而生成了与用户沟通风格相匹配的多样化指令,为学术研究提供了丰富的数据资源。
衍生相关工作
基于NavRAG数据集,研究者们进一步开展了一系列相关工作,如DUET模型的预训练与微调,以及REVERIE数据集的研究,这些工作不仅推动了视觉与语言导航领域的发展,也为智能体技术在现实世界的应用提供了强有力的支撑。
以上内容由遇见数据集搜集并总结生成



