nav-wam-interior-v1
收藏数据集概述:AWM Nav Interior v1
基本信息
- 数据集名称:AWM Nav Interior v1
- 许可证:CC-BY-NC-4.0(非商业研究用途)
- 任务类型:机器人技术、视频分类
- 语言:英语
- 标签:导航、视觉语言导航、世界模型、第一人称、Habitat、InteriorGS
- 数据规模:1,000 < 样本数 < 10,000
数据来源与构建
基于 InteriorGS 的3D高斯泼溅场景,使用 Habitat-GS 生成合成第一人称导航视频。专门用于训练动作世界模型(AWM)——扩散式视频模型,根据首帧图像和自然语言指令联合预测下一帧视频和低级轨迹 (dx, dy, dyaw)。
统计信息
| 指标 | 数值 |
|---|---|
| 场景数(InteriorGS) | 450 |
| 总片段数 | 1,042(训练909 / 验证117 / 质量问题16) |
| 平均时长 | 6.2秒(范围3.0–19.7秒) |
| 帧率 / 分辨率 | 30 fps / 384×384 |
| 水平视场角 | 90° |
| 目标接近度(至锚点边缘距离,95分位) | 1.11米 |
| 总大小 | ~14 GB |
每个片段包含的文件
<scene>/ep_<nnnnn>/ ├── video.mp4 # 30 fps第一人称H.264视频 ├── video_annotated_sam2_v2_gemini.mp4 # 叠加L1/L2/L3/L4文本+SAM2掩码的注释视频 ├── trajectory.npz # 位置(T,3)、四元数(T,4)、时间戳 ├── episode.json # 场景ID、fps、hfov、起点/终点坐标、目标锚点(标签、边界框) ├── endpoint_text.json # 基于GT的起点/终点描述+可见物体 ├── instruction_text_sam2_v2_gemini.json # SAM2事件+L1/L2/L3规范文本+L3改写 ├── navmesh_ref.npz # A多段线+平滑样条线 └── depth/depth_.npy # 关键帧深度图
指令层级
每个片段包含通过大语言模型合成的四种自然语言指令:
| 层级 | 示例 |
|---|---|
| L1 目标物体 | "Go to the chartreuse chair at the round wooden table." |
| L2 路点+目标 | "Walk past the dining bench, then approach the chartreuse chair." |
| L3 完整链 | "Walk forward briefly, turn left, then continue forward. After turning right, head forward to arrive at the chartreuse chair." |
| L4 改写版本 | "Move forward a little, make a left, and keep going straight. From there, take a right and proceed ahead until you reach the chartreuse chair." |
L3为主要训练目标;L1/L2提供仅物体或路点条件的变体。
数据集划分
按场景级划分(同一场景不会出现在两个子集中),随机种子 rng_seed=20260501:
train.txt:405个场景中的909个片段val.txt:45个场景中的117个片段quality_issues.txt:16个被排除的片段(规范文本未到达命名目标)meta.jsonl:包含路径和规范文本的逐片段索引split_info.json:可复现性元数据
生成流程
- 终点采样:在目标物体锚点边界框边缘
[0.4, 1.0]米处,通过视场角和遮挡门控选择可导航位置 - 机器人轨迹:在膨胀占用图上运行A*算法 → Catmull-Rom样条 → TOPP时间参数化 → 仅偏航刚体相机(无人行走步态)
- GT终点描述:利用
labels.json投影和Gemini可见性优化生成描述 - SAM2视频跟踪:将InteriorGS GT边界框种子输入SAM2.1视频预测器,生成逐帧掩码和逐片段物体事件
- 行走-锚点评分:峰值面积+持续性+质心轨迹接近门控,并排除结构背景(墙体/窗帘/天花板)
- 同名消歧:三级策略:空间侧/序数/视觉属性描述("白色金属椅"、"绿色天鹅绒椅")
- L1/L2/L3大语言模型合成:使用Gemini 3.1 Flash Lite Preview从SAM2事件+终点描述生成
- L3改写:同一Gemini模型将L3以不同风格改写,保留语义
注意事项
- 合成视觉效果:InteriorGS场景为真实公寓的3DGS重建,渲染存在GS伪影(部分半透明、偶尔斑点),但运动和场景布局物理一致
- 机器人智能体而非人类:相机刚性安装在底盘上(仅偏航),无头部晃动/前庭动眼反射。训练人类第一人称视角需使用不同相机模型重新渲染
- 目标锚点:每个片段在终点附近有命名的目标物体,智能体到达位置距边界框边缘
0.4–1.4米 - 已知问题:16个片段(
quality_issues.txt中)的规范文本未以GT目标标签结尾(大语言模型幻觉),已从两个子集中排除 - 许可证:数据继承InteriorGS的限制,仅限非商业研究使用
引用与代码
引用时请引用InteriorGS、Habitat-GS和SAM2。生成代码位于:https://github.com/echo636/nav-wam-data 分支 instructions-hierarchical,生成于2026-05-01,提交哈希 ca0314f。




