AgentVLN-Instruct
收藏AgentVLN-Instruct 数据集概述
数据集简介
AgentVLN-Instruct 数据集采用 VLM-as-Brain 范式,通过一个即插即用的技能库,将高级语义推理与低级感知和规划解耦。该数据集旨在弥合视觉语言模型(VLM)强大的2D语义能力与复杂3D物理环境之间的差距,通过将高级指令与低级技能调用紧密对齐来实现。
文件结构
数据集以LMDB格式生成,其输出结构侧重于集中式元数据和每个场景的数据库。
exploration_data.json:元数据文件。[scene_id].lmdb:为减少磁盘IO和文件数量,图像数据(RGB图像和俯视图)被高效地存储在按scene_id映射的LMDB块中。图像主要以编码字符串的形式存储,映射路径类似于"{task_id}/rgb/step_{step:04d}"。
元数据结构 (exploration_data.json)
JSON文件采用“列式数组”格式定义数据集。每个任务内部的数据被结构化为数组,映射到智能体在情节中的时间线(step 0, step 1等)。
关键字段说明
visibility_map:定义可见性状态的枚举映射(例如 "VISIBLE": 0, "BEHIND": 1)。tasks:包含所有生成序列的列表。scene_id:场景标识符。task_id:任务标识符。instruction:高级导航指令文本。total_steps:任务总步数。topdown_coords:探索目标在俯视图上的坐标列表,形状为[step, num_targets, ...]。pixel_coords:探索目标在屏幕上的投影坐标[col, row]列表。world_coords:探索目标的世界3D坐标列表。visibility_status:基于visibility_map枚举的可见性状态列表。history_info:目标的时间记忆历史列表。trajectory_pixel:中间轨迹目标在屏幕上的像素坐标列表。trajectory_world:中间轨迹目标的世界坐标列表。trajectory_status:中间轨迹目标的可见性状态列表。actions:每一步采取的动作索引列表(0 = STOP)。
注意:topdown_coords、pixel_coords、world_coords等字段包含与每一步对应的列表。缺失或无效的目标用null表示。
数据集加载示例
提供了一个torch.utils.data.Dataset类示例(ExplorationLMDBDataset),展示了如何从JSON文件和对应的LMDB数据库中正确读取数据。该类实现了按步骤访问数据,并自动处理LMDB环境管理和图像解码。
引用信息
如需引用该数据集,请使用以下BibTeX条目: latex @misc{xin2026agentvln, title={AgentVLN: Towards Agentic Vision-and-Language Navigation}, author={Zihao Xin and Wentong Li and Yixuan Jiang and Ziyuan Huang and Bin Wang and Piji Li and Jianke Zhu and Jie Qin and Sheng-Jun Huang}, year={2026}, eprint={2603.17670}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2603.17670}, }
备注
QD-PCoT部分将在未来开源。




