FloorPlan-VLN
收藏FloorPlan-VLN 数据集概述
数据集基本信息
- 数据集名称: FloorPlan-VLN
- 核心贡献: 提出了一种利用结构化语义平面图作为全局空间先验进行导航的新范式。
- 论文: https://arxiv.org/html/2603.17437v1
数据集构成与规模
- 场景数量: 72个场景。
- 数据量: 包含超过10,000条导航轨迹。
- 基础数据源: 基于Matterport3D (MP3D) 场景重建。
- 核心组件: 包含100多张带有语义标注的平面图。
- 指令特点: 与导航轨迹和简洁的指令配对。
数据集内容与文件
数据集包含多个子集和文件,具体如下:
1. 主要数据文件
- Matterport-3D Floor Plans: 平面图数据,可从 https://huggingface.co/datasets/keeehan/FloorPlan-VLN/tree/main/mp3d_floorplan 下载。
- FloorPlan-VLN-R2R: 用于评估的数据,可从 https://huggingface.co/datasets/keeehan/FloorPlan-VLN/tree/main/FloorPlan-VLN-R2R 下载。
- FloorPlan-VLN-RxR: 用于评估的数据,可从 https://huggingface.co/datasets/keeehan/FloorPlan-VLN/tree/main/FloorPlan-VLN-RxR 下载。
2. 微调数据文件
- FloorPlan-VLN-R2R-tar: 用于微调的压缩数据,可从 https://huggingface.co/datasets/keeehan/FloorPlan-VLN-R2R/tree/main 下载。
- FloorPlan-VLN-RxR-tar: 用于微调的压缩数据,可从 https://huggingface.co/datasets/keeehan/FloorPlan-VLN-RxR/tree/main 下载。
- FloorPlan-VLN-R2R-finetune-json: 微调用的JSON文件,地址为 https://huggingface.co/datasets/keeehan/FloorPlan-VLN/blob/main/floorplan_vln_r2r_finetune.json。
- FloorPlan-VLN-RxR-finetune-json: 微调用的JSON文件,地址为 https://huggingface.co/datasets/keeehan/FloorPlan-VLN/blob/main/floorplan_vln_rxr_finetune.json。
3. 预训练模型
- FP-Nav: 用于评估的模型,可从 https://huggingface.co/keeehan/FloorPlan-VLN/tree/main/fp-nav-vision-r2r-rxr-lr-4e-5-videoframe6 下载。
数据集组织结构
数据集的典型目录结构如下:
FloorPlan-VLN ├── models │ ├── Qwen-2.5-VL-7B-Instruct │ └── fp-nav-vision-r2r-rxr-lr-4e-5-videoframe6 ├── qwen-vl-finetune │ ├── data │ │ ├── mp3d_floorplan │ │ │ ├── 1LXtFkjw3qL/floorplan.json │ │ │ ├── ... │ │ ├── FloorPlan-VLN-R2R │ │ │ └── r2r/train │ │ │ ├── 1LXtFkjw3qL/0.mp4 │ | │ ├── ... │ │ ├── FloorPlan-VLN-RxR │ | │ └── rxr/train │ │ │ ├── 1LXtFkjw3qL/0.mp4 │ | │ ├── ... │ │ ├── floorplan_vln_r2r_finetune.json │ │ ├── floorplan_vln_rxr_finetune.json │ ├── scripts │ ├── ... ├── VLN-CE │ ├── data │ │ ├── datasets │ │ │ ├── FloorPlan-VLN-R2R │ │ │ │ ├── val_seen | │ | │ │ ├── val_seen.json.gz │ │ │ │ | └── val_seen_gt.json.gz │ │ │ | └── val_unseen │ │ │ │ ├── val_unseen.json.gz │ │ │ │ └── val_unseen_gt.json.gz │ │ │ └── FloorPlan-VLN-RxR │ │ │ ├── val_seen │ │ │ | ├── val_seen.json.gz │ │ │ | └── val_seen_gt.json.gz │ │ │ └── val_unseen │ │ │ ├── val_unseen.json.gz │ │ │ └── val_unseen_gt.json.gz │ │ └── scene_datasets/mp3d | ├── ...
评估数据
评估数据包含两个子集,每个子集包含val_seen和val_unseen划分:
- FloorPlan-VLN-R2R 评估文件。
- FloorPlan-VLN-RxR 评估文件。
每个划分包含
json.gz格式的导航指令文件和对应的真值文件。
数据集构建流程
数据集构建代码位于FloorPlan-VLN-Dataset目录中,主要步骤包括:
- 构建MP3D平面图并筛选有效轨迹。
- 在Habitat环境中逐步记录导航图像。
- 将图像转换为每个轨迹的视频。
- 合并连续动作并对低频动作(如停止)进行上采样。
- 根据重新平衡后的动作对视频进行重采样。
- 在平面图上绘制(动作重新平衡后的)轨迹。
- 创建平面图导航视频。
- 创建时空对齐的视频。
- 为FloorPlan-VLN构建仅涉及起始区域、目标区域和停止条件的简洁指令。
- 构建辅助任务。
- 构建用于微调的问答样本。
相关模型与依赖
- 基础模型: 使用Qwen-2.5-VL-7B-Instruct进行微调。
- 环境依赖: 需要安装Habitat-Sim (v0.1.7) 和 Habitat-Lab (v0.1.7) 以进行仿真与评估。
- 硬件建议: 微调建议使用4张H100 80GB GPU;评估建议使用8张3090 GPU。
联系人
- 主要联系人: Kehan Chen (kehan.chen@cripac.ia.ac.cn)




