AgentVLN-Instruct

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/allenxinn/AgentVLN-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

AgentVLN-Instruct数据集采用VLM-as-Brain范式，通过即插即用的技能库将高级语义推理与低级感知和规划解耦。该数据集旨在弥合视觉语言模型（VLM）在2D语义能力与3D物理环境复杂性之间的差距，通过紧密对齐高级指令与低级技能调用来实现。数据集包含以LMDB格式存储的RGB和俯视图图像，以及集中存储所有数据集元数据的JSON文件。JSON文件中的每个任务包含场景ID、任务ID、指令、总步数以及每一步的坐标、可见性状态和动作等信息。数据集适用于视觉与语言导航任务，并提供了PyTorch数据加载示例。

创建时间：

2026-03-30

原始信息汇总

AgentVLN-Instruct 数据集概述

数据集简介

AgentVLN-Instruct 数据集采用 VLM-as-Brain 范式，通过一个即插即用的技能库，将高级语义推理与低级感知和规划解耦。该数据集旨在弥合视觉语言模型（VLM）强大的2D语义能力与复杂3D物理环境之间的差距，通过将高级指令与低级技能调用紧密对齐来实现。

文件结构

数据集以LMDB格式生成，其输出结构侧重于集中式元数据和每个场景的数据库。

exploration_data.json：元数据文件。
[scene_id].lmdb：为减少磁盘IO和文件数量，图像数据（RGB图像和俯视图）被高效地存储在按scene_id映射的LMDB块中。图像主要以编码字符串的形式存储，映射路径类似于"{task_id}/rgb/step_{step:04d}"。

元数据结构 (`exploration_data.json`)

JSON文件采用“列式数组”格式定义数据集。每个任务内部的数据被结构化为数组，映射到智能体在情节中的时间线（step 0， step 1等）。

关键字段说明

visibility_map：定义可见性状态的枚举映射（例如 "VISIBLE": 0, "BEHIND": 1）。
tasks：包含所有生成序列的列表。
- scene_id：场景标识符。
- task_id：任务标识符。
- instruction：高级导航指令文本。
- total_steps：任务总步数。
- topdown_coords：探索目标在俯视图上的坐标列表，形状为 [step, num_targets, ...]。
- pixel_coords：探索目标在屏幕上的投影坐标 [col, row] 列表。
- world_coords：探索目标的世界3D坐标列表。
- visibility_status：基于visibility_map枚举的可见性状态列表。
- history_info：目标的时间记忆历史列表。
- trajectory_pixel：中间轨迹目标在屏幕上的像素坐标列表。
- trajectory_world：中间轨迹目标的世界坐标列表。
- trajectory_status：中间轨迹目标的可见性状态列表。
- actions：每一步采取的动作索引列表（0 = STOP）。

注意：topdown_coords、pixel_coords、world_coords等字段包含与每一步对应的列表。缺失或无效的目标用null表示。

数据集加载示例

提供了一个torch.utils.data.Dataset类示例（ExplorationLMDBDataset），展示了如何从JSON文件和对应的LMDB数据库中正确读取数据。该类实现了按步骤访问数据，并自动处理LMDB环境管理和图像解码。

引用信息

如需引用该数据集，请使用以下BibTeX条目： latex @misc{xin2026agentvln, title={AgentVLN: Towards Agentic Vision-and-Language Navigation}, author={Zihao Xin and Wentong Li and Yixuan Jiang and Ziyuan Huang and Bin Wang and Piji Li and Jianke Zhu and Jie Qin and Sheng-Jun Huang}, year={2026}, eprint={2603.17670}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2603.17670}, }

备注

QD-PCoT部分将在未来开源。

搜集汇总

数据集介绍

构建方式

在视觉与语言导航领域，AgentVLN-Instruct数据集采用了一种创新的构建范式，即“视觉语言模型作为大脑”，通过解耦高层语义推理与低层感知规划，并借助可插拔的技能库来实现。该数据集旨在弥合视觉语言模型在二维语义理解方面的优势与三维物理环境复杂性之间的鸿沟，通过紧密对齐高层指令与低层技能调用来实现这一目标。其构建过程涉及将多模态数据以列式数组结构组织于JSON元数据文件中，同时利用LMDB数据库高效存储场景相关的RGB图像与俯视图，从而优化数据读取性能并减少磁盘I/O开销。

特点

AgentVLN-Instruct数据集展现出多维度对齐的显著特点，不仅整合了视觉、语言与空间信息，还通过精细的坐标映射与状态标注实现了数据的高度结构化。数据集中的每个任务均包含从高层自然语言指令到低层动作序列的完整轨迹，并辅以探索目标与轨迹目标的多重坐标表示，包括俯视图坐标、像素坐标及三维世界坐标。此外，可见性状态与历史信息的记录为时序推理提供了丰富上下文，使得该数据集能够支持复杂环境下的导航与规划研究。

使用方法

使用AgentVLN-Instruct数据集时，研究人员可通过提供的PyTorch数据集类进行高效加载与访问。该类实现了从JSON元数据文件解析任务结构，并结合LMDB数据库按需读取图像数据。数据样本以步骤为单位组织，每个样本包含RGB图像、俯视图、多类型坐标标注、可见性状态及对应动作索引，便于直接用于训练或评估导航模型。这种设计既保证了数据访问的灵活性，又通过环境缓存机制提升了大规模场景下的处理效率。

背景与挑战

背景概述

AgentVLN-Instruct数据集于2026年由Zihao Xin等研究人员提出，旨在推进具身智能领域中的视觉语言导航研究。该数据集采用“视觉语言模型作为大脑”的创新范式，通过可插拔技能库将高层语义推理与低层感知规划解耦，以弥合视觉语言模型在二维语义理解与三维物理环境复杂性之间的鸿沟。其核心研究问题聚焦于如何实现自然语言指令与具体导航动作之间的紧密对齐，从而增强智能体在复杂室内场景中的自主探索与任务执行能力。该数据集的构建为视觉语言导航领域提供了新的基准，促进了多模态推理与具身决策的融合研究。

当前挑战

AgentVLN-Instruct数据集旨在解决视觉语言导航任务中高层指令与低层技能调用之间的对齐挑战，这要求模型在动态三维环境中实现精确的空间推理与动作规划。构建过程中的挑战包括如何高效整合大规模多模态数据，例如将RGB图像、俯视图与世界坐标统一存储于LMDB数据库以减少磁盘I/O开销，并确保时序数据如轨迹坐标与可见性状态的连贯标注。此外，数据集需处理复杂场景中目标可见性变化与历史信息追踪的复杂性，这对标注一致性与数据结构的鲁棒性提出了较高要求。

常用场景

经典使用场景

在具身智能与视觉语言导航领域，AgentVLN-Instruct数据集通过其独特的VLM-as-Brain范式，为智能体在复杂三维环境中的导航任务提供了经典的应用场景。该数据集将高层语义指令与低层技能调用紧密对齐，使得研究者能够训练模型在模拟或真实环境中执行多步导航指令，例如从起点出发，经过特定路径，最终抵达目标房间。这种场景不仅考验模型对自然语言指令的理解，还要求其具备空间推理与动态规划能力，为视觉语言导航研究提供了标准化的评估平台。

解决学术问题

AgentVLN-Instruct数据集主要解决了视觉语言导航中高层语义推理与低层感知规划之间的脱节问题。传统方法往往受限于视觉语言模型在二维语义理解与三维物理环境复杂性之间的鸿沟，导致导航效率低下。该数据集通过引入技能库与精细的时空标注，如目标坐标、可见性状态与行动序列，使得模型能够学习如何将抽象指令分解为可执行的导航动作。这不仅提升了导航的准确性与鲁棒性，还为跨模态推理、长期记忆建模等核心学术问题提供了数据支撑，推动了具身智能领域的基础理论发展。

衍生相关工作

基于AgentVLN-Instruct数据集，学术界衍生了一系列经典研究工作，主要集中在强化学习、多模态融合与导航策略优化等方面。例如，研究者利用该数据集的技能库设计，开发了模块化导航架构，将视觉语言模型作为高层决策器，结合低层控制器执行具体动作。此外，工作还探索了基于记忆的导航模型，通过历史信息与轨迹数据增强智能体的长期规划能力。这些研究不仅扩展了数据集的适用边界，还催生了新的评估基准与算法框架，持续推动视觉语言导航向更高效、更智能的方向演进。

以上内容由遇见数据集搜集并总结生成