VL-LN Bench

github2025-12-30 更新2026-01-05 收录

下载链接：

https://github.com/InternRobotics/VL-LN

下载链接

链接失效反馈

官方服务：

资源简介：

VL-LN是一个基准测试，提供了一个大规模、自动生成的数据集和全面的评估协议，用于训练和评估支持对话的导航模型。

VL-LN is a benchmark that provides a large-scale, automatically-generated dataset and a comprehensive evaluation protocol for training and evaluating dialogue-enabled navigation models.

创建时间：

2025-12-30

原始信息汇总

VL-LN Bench 数据集概述

数据集基本信息

数据集名称：VL-LN Bench
核心定位：一个用于训练和评估支持对话的导航模型的大规模、自动生成的数据集和综合评估协议。
相关论文：VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

数据集内容与结构

主要组成部分：
1. 数据集：位于 https://huggingface.co/datasets/InternRobotics/VL-LN-Bench。
2. 基础模型：位于 https://huggingface.co/InternRobotics/VL-LN-Bench-basemodel。
3. 场景数据集：基于 MP3D 场景数据集。
数据目录结构：

VL-LN-Bench/ ├── base_model/ │ └── iion/ ├── raw_data/ │ └── mp3d/ │ ├── scene_summary/ │ ├── train/ │ │ ├── train_ion.json.gz │ │ └── train_iion.json.gz │ └── val_unseen/ │ ├── val_unseen_ion.json.gz │ └── val_unseen_iion.json.gz ├── scene_datasets/ │ └── mp3d/ │ ├── 17DRP5sb8fy/ │ ├── 1LXtFkjw3qL/ │ ... └── traj_data/ ├── mp3d_split1/ ├── mp3d_split2/ └── mp3d_split3/

使用与获取

数据获取：
- 场景数据集需从 MP3D 官网下载。
- VL-LN 数据和基础模型从 Hugging Face 获取。
代码仓库：
- 数据收集代码：https://github.com/InternRobotics/VL-LN
- 训练与评估代码：https://github.com/InternRobotics/InternNav
环境依赖：需要安装 Habitat Sim 0.2.4 及其他 Python 依赖。

数据收集与处理

前提条件：需要获取 pointnav_weights.pth 文件（来自 VLFM 项目）并组织特定的目录结构。
轨迹收集：可通过运行 generate_frontiers_dialog.py 脚本或相应的 Slurm 脚本来生成。

训练与评估

训练：使用 InternNav 仓库中的 train_system2_vlln.sh 脚本启动训练。
评估：使用 InternNav 仓库中的 srun_eval_dialog.sh 脚本或直接运行 eval.py 进行评估。

许可协议

代码许可：MIT 许可证。
数据许可：VL-LN 开源数据遵循知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议。
其他数据集：如 InternData-N1，遵循其自身的分发许可。

致谢

InternNav：基于 PyTorch、Habitat 和 Isaac Sim 的一体化开源具身导航工具箱。
MMScan：提供具有分层基础语言注释的多模态 3D 场景数据集。
VLFM：一种零样本语义导航方法。

搜集汇总

数据集介绍

构建方式

在视觉与语言导航领域，VL-LN Bench通过自动化流程构建大规模数据集。其构建过程依托于Matterport3D场景数据集，利用预训练的点导航策略生成轨迹数据，并结合对话生成机制丰富导航上下文。具体而言，系统通过前沿探索与目标检测阈值设定，在多样化的室内环境中模拟智能体与环境的交互，自动产生包含多轮对话的导航指令序列，从而形成结构化的训练与评估样本。

特点

该数据集的核心特点在于其规模宏大且专注于长时程目标导向的导航任务，并深度融合了主动对话机制。数据集提供了丰富的多模态数据，包括场景图像、轨迹路径以及自然语言对话，支持对导航模型在复杂环境下的语义理解与决策能力进行综合评估。此外，数据集划分了训练集与未见过的验证集，确保了模型泛化性能的有效检验，为视觉语言导航研究设立了新的基准。

使用方法

使用VL-LN Bench需首先下载场景数据集与基准模型，并按照指定目录结构进行组织。通过配置Conda环境并安装相关依赖，研究人员可以运行提供的脚本进行数据收集、模型训练与性能评估。训练过程基于InternNav框架，利用数据集中的对话-轨迹对优化导航策略；评估阶段则通过标准化的测试协议，衡量模型在未知场景中依据对话完成导航任务的准确性与效率。

背景与挑战

背景概述

在具身智能与视觉语言导航领域，实现长时程、目标导向的导航任务一直是核心挑战。VL-LN Bench基准数据集由InternRobotics团队于2025年创建，旨在为对话赋能导航模型的训练与评估提供大规模、自动生成的数据资源与全面协议。该数据集依托Matterport3D等真实场景，通过创新的数据收集流程，系统性地构建了包含复杂轨迹与主动对话的样本，以推动智能体在未知环境中通过多轮交互完成导航目标的研究。其工作为导航模型从被动执行向主动协作的范式转变奠定了重要基础，对机器人学、计算机视觉与自然语言处理的交叉领域产生了显著影响。

当前挑战

VL-LN Bench致力于解决视觉语言导航中长时程目标导向任务的挑战，其核心在于如何让智能体在复杂、未知的3D环境中通过主动对话获取信息，并规划执行一系列子目标以达成最终导航目的。这一过程要求模型具备跨模态理解、序列决策与上下文对话维持的复合能力。在数据集构建层面，挑战主要体现在自动化生成高质量、多样化的导航对话轨迹，这需要整合前沿的视觉感知、路径规划与语言生成技术，并确保生成数据在语义合理性、任务复杂性与现实泛化性之间取得平衡，同时处理大规模3D场景数据处理与多模态对齐所带来的技术复杂性。

常用场景

经典使用场景

在具身智能与视觉语言导航领域，VL-LN Bench数据集为长时程目标导向导航任务提供了标准化的评估基准。其经典使用场景聚焦于训练和测试具备对话交互能力的导航模型，通过模拟真实世界中的复杂室内环境，如Matterport3D场景，生成包含多轮对话指令的导航轨迹。研究者可利用该数据集构建智能体，使其在未知环境中通过主动对话获取信息，逐步探索并抵达指定目标，从而推动导航系统在动态、不确定场景下的适应能力。

解决学术问题

该数据集有效解决了视觉语言导航研究中长期存在的若干关键学术问题。其一，它通过自动化生成的大规模对话导航数据，缓解了传统方法依赖人工标注导致的规模与多样性限制；其二，针对长时程导航中的部分可观测性与目标模糊性挑战，数据集引入了主动对话机制，使智能体能够通过交互澄清意图、获取环境线索；其三，它提供了统一的评估协议，促进了不同模型在相同基准下的公平比较，加速了导航与自然语言理解交叉领域的算法创新与理论进展。

衍生相关工作

围绕VL-LN Bench数据集，已衍生出一系列重要的经典研究工作。例如，InternVLA-N1作为开放的双系统导航基础模型，利用数据集中学习到的潜在规划策略，提升了长时程导航的泛化能力；StreamVLN通过慢快上下文建模，优化了流式视觉语言导航中的信息处理效率；NavDP则结合特权信息引导，研究了从仿真到实物的导航扩散策略学习。这些工作共同构建了一个从数据生成、模型训练到实际部署的完整技术生态，持续推动着具身导航领域的边界拓展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集