five

FloorPlan-VLN

收藏
github2026-03-19 更新2026-03-22 收录
下载链接:
https://github.com/Chenkehan21/FloorPlan-VLN
下载链接
链接失效反馈
官方服务:
资源简介:
FloorPlan-VLN是一个新的视觉语言导航范式,利用结构化语义平面图作为全局空间先验,通过简洁实用的指令实现导航。该数据集包含超过10K个episodes,覆盖72个场景,配对了100多个语义标注的平面图与基于Matterport3D的导航轨迹和简洁指令。

FloorPlan-VLN is a novel visual language navigation paradigm that utilizes structured semantic floor plans as global spatial priors to enable navigation via concise and practical natural language instructions. This dataset contains over 10K episodes spanning 72 scenes, and pairs over 100 semantically annotated floor plans with Matterport3D-based navigation trajectories and concise navigation instructions.
创建时间:
2026-03-18
原始信息汇总

FloorPlan-VLN 数据集概述

数据集基本信息

  • 数据集名称: FloorPlan-VLN
  • 核心贡献: 提出了一种利用结构化语义平面图作为全局空间先验进行导航的新范式。
  • 论文: https://arxiv.org/html/2603.17437v1

数据集构成与规模

  • 场景数量: 72个场景。
  • 数据量: 包含超过10,000条导航轨迹。
  • 基础数据源: 基于Matterport3D (MP3D) 场景重建。
  • 核心组件: 包含100多张带有语义标注的平面图。
  • 指令特点: 与导航轨迹和简洁的指令配对。

数据集内容与文件

数据集包含多个子集和文件,具体如下:

1. 主要数据文件

2. 微调数据文件

3. 预训练模型

数据集组织结构

数据集的典型目录结构如下:

FloorPlan-VLN ├── models │ ├── Qwen-2.5-VL-7B-Instruct │ └── fp-nav-vision-r2r-rxr-lr-4e-5-videoframe6 ├── qwen-vl-finetune │ ├── data │ │ ├── mp3d_floorplan │ │ │ ├── 1LXtFkjw3qL/floorplan.json │ │ │ ├── ... │ │ ├── FloorPlan-VLN-R2R │ │ │ └── r2r/train │ │ │ ├── 1LXtFkjw3qL/0.mp4 │ | │ ├── ... │ │ ├── FloorPlan-VLN-RxR │ | │ └── rxr/train │ │ │ ├── 1LXtFkjw3qL/0.mp4 │ | │ ├── ... │ │ ├── floorplan_vln_r2r_finetune.json │ │ ├── floorplan_vln_rxr_finetune.json │ ├── scripts │ ├── ... ├── VLN-CE │ ├── data │ │ ├── datasets │ │ │ ├── FloorPlan-VLN-R2R │ │ │ │ ├── val_seen | │ | │ │ ├── val_seen.json.gz │ │ │ │ | └── val_seen_gt.json.gz │ │ │ | └── val_unseen │ │ │ │ ├── val_unseen.json.gz │ │ │ │ └── val_unseen_gt.json.gz │ │ │ └── FloorPlan-VLN-RxR │ │ │ ├── val_seen │ │ │ | ├── val_seen.json.gz │ │ │ | └── val_seen_gt.json.gz │ │ │ └── val_unseen │ │ │ ├── val_unseen.json.gz │ │ │ └── val_unseen_gt.json.gz │ │ └── scene_datasets/mp3d | ├── ...

评估数据

评估数据包含两个子集,每个子集包含val_seenval_unseen划分:

  • FloorPlan-VLN-R2R 评估文件。
  • FloorPlan-VLN-RxR 评估文件。 每个划分包含json.gz格式的导航指令文件和对应的真值文件。

数据集构建流程

数据集构建代码位于FloorPlan-VLN-Dataset目录中,主要步骤包括:

  1. 构建MP3D平面图并筛选有效轨迹。
  2. 在Habitat环境中逐步记录导航图像。
  3. 将图像转换为每个轨迹的视频。
  4. 合并连续动作并对低频动作(如停止)进行上采样。
  5. 根据重新平衡后的动作对视频进行重采样。
  6. 在平面图上绘制(动作重新平衡后的)轨迹。
  7. 创建平面图导航视频。
  8. 创建时空对齐的视频。
  9. 为FloorPlan-VLN构建仅涉及起始区域、目标区域和停止条件的简洁指令。
  10. 构建辅助任务。
  11. 构建用于微调的问答样本。

相关模型与依赖

  • 基础模型: 使用Qwen-2.5-VL-7B-Instruct进行微调。
  • 环境依赖: 需要安装Habitat-Sim (v0.1.7) 和 Habitat-Lab (v0.1.7) 以进行仿真与评估。
  • 硬件建议: 微调建议使用4张H100 80GB GPU;评估建议使用8张3090 GPU。

联系人

  • 主要联系人: Kehan Chen (kehan.chen@cripac.ia.ac.cn)
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言导航领域,传统方法依赖冗长的指令而缺乏全局空间先验知识,限制了智能体对空间结构的理解能力。FloorPlan-VLN数据集的构建过程系统性地整合了结构化语义信息与导航轨迹,通过采集超过100张经过语义标注的平面图,并与Matterport3D场景中的导航路径进行配对。构建流程包括从原始场景中提取有效导航片段,逐步记录视觉观测图像,并将图像序列转换为视频格式;同时,对动作序列进行重新平衡以优化数据分布,并将轨迹映射至平面图生成空间对齐的视频。最终,数据集涵盖了72个场景中的万余条导航片段,每条片段均配有简洁的实用指令,形成了空间先验与视觉语言任务的高效结合。
特点
FloorPlan-VLN数据集的核心特点在于引入了结构化平面图作为全局空间先验,从而革新了视觉语言导航的范式。该数据集包含语义丰富的平面图注解,这些注解与真实场景的导航轨迹精确对应,使得智能体能够依据简洁指令进行空间推理。数据集中每个导航片段均以双视图视频形式呈现,实现了视觉观测与平面图在时空维度上的对齐,为模型提供了多层次的空间表征。此外,数据集还设计了辅助推理任务,进一步强化了指令、观测与平面图之间的语义关联,为评估智能体的空间认知能力提供了可靠基准。
使用方法
使用FloorPlan-VLN数据集时,研究人员需首先下载Matterport3D场景数据及相应的平面图文件,并按照指定目录结构进行组织。数据集支持两种主要应用模式:微调与评估。对于微调任务,用户可加载预训练的视觉语言模型,并利用数据集提供的JSON文件进行监督学习,以对齐平面图、视频序列与指令。评估阶段则需配置Habitat仿真环境,加载训练好的模型在验证集上执行导航任务,并通过专用脚本计算成功率等指标。数据集的代码库提供了完整的构建流程,允许用户自定义导航片段生成与对齐过程,以适应不同的研究需求。
背景与挑战
背景概述
视觉语言导航(VLN)领域长期致力于开发能够依据自然语言指令在三维环境中自主移动的智能体。然而,传统范式通常要求智能体依赖冗长的逐步指引,缺乏对全局空间结构的先验认知,这限制了其在复杂真实场景中的实用性与空间推理能力。为应对这一局限,由Kehan Chen、Yan Huang等研究人员组成的团队于2024年提出了FloorPlan-VLN数据集。该数据集创新性地引入语义标注的平面图作为全局空间先验,构建了超过一万个导航片段,覆盖72个场景,将Matterport3D的导航轨迹与简洁指令相结合。这一范式转变不仅显著提升了导航成功率,更推动了VLN研究向更高效、更贴近人类空间认知的方向演进。
当前挑战
FloorPlan-VLN数据集旨在解决视觉语言导航中智能体缺乏全局空间理解的核心挑战。传统方法依赖冗长指令,难以在复杂建筑环境中进行高效路径规划与空间推理。该数据集通过引入平面图先验,要求模型实现多模态对齐,即视觉观察、结构化平面图与简洁指令之间的精确关联,这对模型的跨模态理解与时空推理能力提出了更高要求。在构建过程中,团队面临诸多技术难题,包括从Matterport3D场景中提取并语义标注平面图、确保导航轨迹与平面图的空间一致性,以及生成既简洁又包含足够导航信息的指令。此外,数据集的构建还需处理动作序列的重新平衡与视频帧的时空对齐,以确保训练数据的质量与模型的鲁棒性。
常用场景
经典使用场景
在视觉语言导航领域,FloorPlan-VLN数据集为智能体提供了结合全局空间先验的导航范式。该数据集通过整合语义标注的平面图与导航轨迹,使得智能体能够在简洁指令的引导下,理解并利用建筑平面图进行路径规划。这一经典场景广泛应用于室内导航任务中,特别是在需要全局空间认知的复杂环境中,智能体能够依据平面图的结构信息,高效地执行导航指令,从而显著提升导航成功率。
实际应用
在实际应用层面,FloorPlan-VLN数据集可服务于智能机器人导航、虚拟现实导览及室内定位系统。例如,在商场、医院或办公楼等大型建筑中,智能机器人能够借助平面图快速定位目标区域,减少对详细语音指令的依赖。此外,该数据集支持对导航系统进行噪声建模与鲁棒性测试,确保其在传感器误差或地图畸变等现实干扰下仍能稳定运行,从而为自动化导航设备的部署提供可靠的技术支撑。
衍生相关工作
FloorPlan-VLN数据集衍生了一系列经典研究工作,其中FP-Nav方法通过双视角时空对齐的视频序列与辅助推理任务,实现了观测、平面图与指令的对齐。该工作启发了后续基于多模态融合的导航模型,如结合视觉语言模型进行细粒度空间推理的扩展研究。同时,数据集构建过程中采用的轨迹重平衡与视频合成技术,也为其他导航数据集的创建提供了方法论参考,促进了视觉语言导航领域的算法创新与benchmark发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作