OpenNav_R2R-CE_100

github2025-02-21 更新2025-03-12 收录

下载链接：

https://github.com/YanyuanQiao/Open-Nav

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于在模拟环境中进行快速且经济高效的测试，支持零样本视觉与语言导航任务。

This dataset is designed for fast and cost-effective testing in simulated environments, supporting zero-shot vision-and-language navigation tasks.

创建时间：

2025-02-14

原始信息汇总

Open-Nav 数据集概述

数据集简介

数据集名称：Open-Nav
研究领域：视觉与语言导航（Vision-and-Language Navigation, VLN）
任务描述：探索在连续环境中使用开源大型语言模型（LLMs）进行零样本视觉与语言导航
方法：采用空间时间链式思维（CoT）推理方法，分解为指令理解、进度估计和决策制定
特点：增强场景感知，使用细粒度对象和空间知识，提升LLM在导航中的推理能力
实验环境：在模拟环境和真实世界环境中进行测试

数据集详情

数据集版本：OpenNav_R2R-CE_100
数据集下载：Download Here

致谢

参考项目：DiscussNav, SpatialBot, RAM

引用

bibtex @inproceedings{qiao2025opennav, author = {Yanyuan Qiao and Wenqi Lyu and Hui Wang and Zixu Wang and Zerui Li and Yuan Zhang and Mingkui Tan and Qi Wu}, title = {Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs}, booktitle = {Proceedings of the IEEE International Conference on Robotics and Automation (ICRA)}, year = {2025} }

搜集汇总

数据集介绍

构建方式

OpenNav_R2R-CE_100数据集的构建是基于视觉与语言导航任务的需求，旨在为开源大型语言模型在连续环境中的零样本导航提供测试平台。该数据集通过模拟环境中的导航指令，结合空间和时间链式推理方法，将任务拆分为指令理解、进度估计和决策制定三个阶段，从而在细粒度物体和空间知识的基础上增强场景感知，提升语言模型在导航任务中的推理能力。

特点

本数据集的主要特点在于采用了开源大型语言模型进行零样本导航，减少了对于闭源模型的依赖，同时避免了高昂的令牌成本和实际应用中的数据泄露风险。数据集包含了丰富的空间和语言信息，为模型提供了在连续环境中执行复杂导航任务的充足训练数据，并通过在模拟和真实世界环境中的广泛实验，展现了与闭源模型相比的竞争力。

使用方法

用户可以通过数据集提供的官方网站和论文链接，了解数据集的具体内容和使用方法。数据集的获取方式便捷，用户可以直接从提供的下载链接中获取OpenNav_R2R-CE_100数据集，并在模拟环境中进行快速、低成本的性能测试。此外，数据集的文档中提供了详细的引用格式，便于用户在研究工作中正确引用该数据集。

背景与挑战

背景概述

OpenNav_R2R-CE_100数据集是在2025年国际机器人与自动化会议（ICRA）上发表的一项研究成果，由Yanyuan Qiao，Wenqi Lyu，Hui Wang等研究人员共同完成。该数据集针对视觉与语言导航（Vision-and-Language Navigation, VLN）任务，旨在通过文本指令使智能体在3D环境中导航。传统的VLN方法依赖于特定领域的监督学习数据集进行模型训练，而OpenNav_R2R-CE_100数据集则探索了在连续环境中使用开源大型语言模型（LLM）进行零样本VLN任务的可能性，对相关领域产生了显著影响。

当前挑战

该数据集在解决领域问题方面的挑战主要在于，传统的零样本VLN方法通常面临高昂的令牌成本和实际应用中的数据泄露风险。在构建过程中，数据集需要克服的挑战包括如何利用开源LLM进行有效的空间时间链式思维（CoT）推理，分解任务为指令理解、进度估计和决策制定，并增强场景感知以改进LLM在导航中的推理能力。此外，数据集的构建还需确保在模拟和真实环境中的实验可行性和成本效益，以展示其与闭源LLM相比的竞争力。

常用场景

经典使用场景

OpenNav_R2R-CE_100数据集为视觉与语言导航任务提供了一个重要的研究平台，其经典的使用场景在于评估和训练零样本学习模型在连续环境中的导航能力。该数据集通过模拟现实世界的三维环境，使得研究者在无需特定领域数据集的情况下，即可测试大型语言模型在视觉理解与语言指令结合的导航任务中的表现。

衍生相关工作

基于OpenNav_R2R-CE_100数据集的研究已经衍生出多项相关工作，包括但不限于对空间认知、决策制定以及细粒度对象知识在视觉与语言导航中的融合与应用，这些研究进一步扩展了该数据集在学术领域的影响力和应用范围。

数据集最近研究

OpenNav_R2R-CE_100

Open-Nav 数据集概述

数据集简介

数据集详情

相关信息

致谢

引用