five

nav-wam-interior-v1

收藏
Hugging Face2026-05-10 更新2026-05-11 收录
下载链接:
https://huggingface.co/datasets/Yangyihui/nav-wam-interior-v1
下载链接
链接失效反馈
官方服务:
资源简介:
AWM Nav Interior v1 是一个合成的第一人称导航视频数据集,专为训练动作世界模型(AWM)而设计。AWM是一种基于扩散的视频模型,能够根据初始帧图像和自然语言指令联合预测下一帧视频和低层轨迹(dx, dy, dyaw)。数据集基于InteriorGS 3D高斯泼溅场景生成,通过Habitat-GS实现。它包含450个场景和1,042个片段,其中909个用于训练、117个用于验证、16个用于质量标记。每个片段平均时长6.2秒,分辨率为384×384,帧率为30 FPS,水平视场角为90°。每个片段包含视频、轨迹数据、端点文本描述、多层次自然语言指令(从L1到L4)以及深度图等。数据集适用于机器人导航、视频分类等任务。生成过程包括端点采样、机器人轨迹生成、GT端点描述、SAM2视频跟踪等步骤。已知问题包括部分片段的自然语言指令未达到命名目标(LLM幻觉),这些片段已被排除在训练和验证集外。数据集遵循非商业研究使用的许可协议。

AWM Nav Interior v1 is a synthetic first-person navigation video dataset designed for training Action World Models (AWM). AWM is a diffusion-based video model capable of jointly predicting the next frame video and low-level trajectories (dx, dy, dyaw) based on initial frame images and natural language instructions. The dataset is generated based on InteriorGS 3D Gaussian Splatting scenes, implemented via Habitat-GS. It contains 450 scenes and 1,042 clips, with 909 for training, 117 for validation, and 16 for quality labeling. Each clip has an average duration of 6.2 seconds, a resolution of 384×384, a frame rate of 30 FPS, and a horizontal field of view of 90°. Each clip includes video, trajectory data, endpoint text descriptions, multi-level natural language instructions (from L1 to L4), and depth maps, among other elements. The dataset is suitable for tasks such as robot navigation and video classification. The generation process involves steps like endpoint sampling, robot trajectory generation, GT endpoint description, and SAM2 video tracking. Known issues include some clips where natural language instructions do not achieve the named target (LLM hallucination), and these clips have been excluded from the training and validation sets. The dataset follows a non-commercial research use license agreement.
创建时间:
2026-05-02
原始信息汇总

数据集概述:AWM Nav Interior v1

基本信息

  • 数据集名称:AWM Nav Interior v1
  • 许可证:CC-BY-NC-4.0(非商业研究用途)
  • 任务类型:机器人技术、视频分类
  • 语言:英语
  • 标签:导航、视觉语言导航、世界模型、第一人称、Habitat、InteriorGS
  • 数据规模:1,000 < 样本数 < 10,000

数据来源与构建

基于 InteriorGS 的3D高斯泼溅场景,使用 Habitat-GS 生成合成第一人称导航视频。专门用于训练动作世界模型(AWM)——扩散式视频模型,根据首帧图像和自然语言指令联合预测下一帧视频和低级轨迹 (dx, dy, dyaw)

统计信息

指标 数值
场景数(InteriorGS) 450
总片段数 1,042(训练909 / 验证117 / 质量问题16)
平均时长 6.2秒(范围3.0–19.7秒)
帧率 / 分辨率 30 fps / 384×384
水平视场角 90°
目标接近度(至锚点边缘距离,95分位) 1.11米
总大小 ~14 GB

每个片段包含的文件

<scene>/ep_<nnnnn>/ ├── video.mp4 # 30 fps第一人称H.264视频 ├── video_annotated_sam2_v2_gemini.mp4 # 叠加L1/L2/L3/L4文本+SAM2掩码的注释视频 ├── trajectory.npz # 位置(T,3)、四元数(T,4)、时间戳 ├── episode.json # 场景ID、fps、hfov、起点/终点坐标、目标锚点(标签、边界框) ├── endpoint_text.json # 基于GT的起点/终点描述+可见物体 ├── instruction_text_sam2_v2_gemini.json # SAM2事件+L1/L2/L3规范文本+L3改写 ├── navmesh_ref.npz # A多段线+平滑样条线 └── depth/depth_.npy # 关键帧深度图

指令层级

每个片段包含通过大语言模型合成的四种自然语言指令:

层级 示例
L1 目标物体 "Go to the chartreuse chair at the round wooden table."
L2 路点+目标 "Walk past the dining bench, then approach the chartreuse chair."
L3 完整链 "Walk forward briefly, turn left, then continue forward. After turning right, head forward to arrive at the chartreuse chair."
L4 改写版本 "Move forward a little, make a left, and keep going straight. From there, take a right and proceed ahead until you reach the chartreuse chair."

L3为主要训练目标;L1/L2提供仅物体或路点条件的变体。

数据集划分

按场景级划分(同一场景不会出现在两个子集中),随机种子 rng_seed=20260501

  • train.txt:405个场景中的909个片段
  • val.txt:45个场景中的117个片段
  • quality_issues.txt:16个被排除的片段(规范文本未到达命名目标)
  • meta.jsonl:包含路径和规范文本的逐片段索引
  • split_info.json:可复现性元数据

生成流程

  1. 终点采样:在目标物体锚点边界框边缘 [0.4, 1.0] 米处,通过视场角和遮挡门控选择可导航位置
  2. 机器人轨迹:在膨胀占用图上运行A*算法 → Catmull-Rom样条 → TOPP时间参数化 → 仅偏航刚体相机(无人行走步态)
  3. GT终点描述:利用 labels.json 投影和Gemini可见性优化生成描述
  4. SAM2视频跟踪:将InteriorGS GT边界框种子输入SAM2.1视频预测器,生成逐帧掩码和逐片段物体事件
  5. 行走-锚点评分:峰值面积+持续性+质心轨迹接近门控,并排除结构背景(墙体/窗帘/天花板)
  6. 同名消歧:三级策略:空间侧/序数/视觉属性描述("白色金属椅"、"绿色天鹅绒椅")
  7. L1/L2/L3大语言模型合成:使用Gemini 3.1 Flash Lite Preview从SAM2事件+终点描述生成
  8. L3改写:同一Gemini模型将L3以不同风格改写,保留语义

注意事项

  • 合成视觉效果:InteriorGS场景为真实公寓的3DGS重建,渲染存在GS伪影(部分半透明、偶尔斑点),但运动和场景布局物理一致
  • 机器人智能体而非人类:相机刚性安装在底盘上(仅偏航),无头部晃动/前庭动眼反射。训练人类第一人称视角需使用不同相机模型重新渲染
  • 目标锚点:每个片段在终点附近有命名的目标物体,智能体到达位置距边界框边缘 0.4–1.4
  • 已知问题:16个片段(quality_issues.txt中)的规范文本未以GT目标标签结尾(大语言模型幻觉),已从两个子集中排除
  • 许可证:数据继承InteriorGS的限制,仅限非商业研究使用

引用与代码

引用时请引用InteriorGS、Habitat-GS和SAM2。生成代码位于:https://github.com/echo636/nav-wam-data 分支 instructions-hierarchical,生成于2026-05-01,提交哈希 ca0314f

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于InteriorGS的3D高斯泼溅场景,借助Habitat-GS仿真平台构建而成。生成流程涵盖终点采样、机器人轨迹规划、真实标注端点描述、SAM2视频追踪等多个环节。具体而言,通过选取可导航的物体作为目标终点,采用A*算法结合Catmull-Rom样条与TOPP时间参数化生成机器人运动轨迹。随后利用Gemini模型进行终点可见性描述,并借助SAM2.1视频预测器提取逐帧掩码与物体事件。最后,基于层级化指令设计,由Gemini模型合成从物体目标到完整行动链的多层次自然语言导航指令。
特点
数据集包含450个室内场景、1042个导航片段,每个片段均提供30帧/秒的视角视频、机器人轨迹数据及多层级指令标注。其突出特点在于指令的层次化结构,涵盖从底层物体目标到高层动作链的四种级别(L1至L4),其中L3作为主要训练目标,并配有L4的语义保留改写版本。此外,数据集采用场景级划分,确保训练与验证集无场景重叠,并纳入了SAM2追踪生成的物体事件与可见性信息。
使用方法
适用于训练基于扩散的Action World Models,该模型能够从首帧图像与自然语言指令联合预测下一帧视频与低级轨迹参数(dx, dy, dyaw)。使用时,可按场景划分文件加载训练集与验证集,排除质量问题的16个片段。每个片段包含视频、轨迹、深度图及JSON格式的指令与标注文件,可直接读取instruction_text_sam2_v2_gemini.json中的多层次指令用于条件生成。数据集许可证为CC-BY-NC-4.0,仅限非商业研究用途。
背景与挑战
背景概述
该数据集名为nav-wam-interior-v1,由echo636研究团队于2026年5月创建,基于InteriorGS的3D高斯泼溅场景和Habitat-GS模拟器生成,核心研究问题在于利用扩散式视频模型构建行动世界模型(AWM),以联合预测第一人称导航视频与底层轨迹。数据集包含450个室内场景、1042个导航片段,并提供了多层级自然语言指令(L1至L4),旨在弥合高层语言指令与低层运动控制之间的鸿沟。作为合成导航数据的标杆,该数据集为推动具身智能体在复杂室内环境中实现语言引导的自主导航研究提供了关键资源。
当前挑战
该数据集应对的核心挑战包括:领域问题层面,视觉与语言导航(VLN)任务长久受困于缺乏融合视频、轨迹与多层级指令的高质量同步数据,导致现有模型难以从语言描述中学习精细的连续运动控制;构建过程层面,需克服合成场景中3DGS渲染伪影(如半透明与噪点)带来的视觉不一致,并设计严格的空间采样与轨迹优化流程(如A*寻路与Catmull-Rom样条插值)以确保物理可行性,同时利用大语言模型生成层次化指令,但面临16个样本中规范文本偏离目标对象的幻觉问题,需通过质量筛查剔除以确保数据纯度。
常用场景
经典使用场景
nav-wam-interior-v1数据集专为训练动作世界模型(Action World Models, AWM)而设计,这是一种基于扩散的视频模型,能够从首帧图像和自然语言指令中联合预测下一帧视频与低层级轨迹(dx, dy, dyaw)。其最经典的使用场景是视觉语言导航(VLN)中的指令跟随与动作规划,研究者可利用该数据集训练智能体在逼真的室内3D高斯泼溅场景中,根据多级自然语言描述(如物体目标、航点链或完整动作序列)自主导航至指定目标。数据集包含450个室内场景、1042个导航片段,每个片段均提供30fps的第一人称视频、轨迹数据、深度图以及四层级的语言指令,为端到端的语言条件导航模型提供了高质量的监督信号。
衍生相关工作
该数据集的构建依赖多项经典工作,并有望激发新的研究方向。其底层场景来自InteriorGS——一种利用3D高斯泼溅技术重建真实公寓的合成数据集,而导航模拟则基于Habitat-GS框架,实现了渲染与物理一致性的结合。轨迹生成中采用了A*路径规划与Catmull-Rom样条插值,时间参数化采用TOPP方法,确保了运动平滑性。SAM2.1视频预测器被用于逐帧物体掩膜追踪,结合Gemini模型生成多层级自然语言指令(L1至L4),建立了视觉事件与语言描述的桥梁。这些技术融合形成了从场景重建、仿真导航到语言标注的完整数据流水线,为未来合成数据生成、多模态学习及语言条件世界模型的研究提供了范式参考。
数据集最近研究
最新研究方向
nav-wam-interior-v1数据集代表了视觉语言导航(VLN)领域向行动世界模型(AWM)演进的前沿探索。该数据集依托InteriorGS的3D高斯泼溅场景和Habitat-GS仿真平台,生成了包含多层级自然语言指令与第一人称导航视频的带有轨迹标注的合成数据。不同于传统基于离散动作或路径规划的导航方法,AWM范式利用扩散模型直接联合预测下一帧视频与低层级轨迹,将导航任务转化为视觉生成问题,从而显著提升了模型对环境动态性和指令变体复杂度的建模能力。研究中尤其强调了对高质量锚点目标端到端采样、SAM2视频对象追踪以及基于多模态语言模型(LLM)的分层指令合成流程,这使得数据集能够编码从物体导向到行为序列的多粒度导航语义。该数据集的发布有望推动VLN从符号化指令理解向生成式具身推理的转变,在机器人自主导航、智能家居和增强现实等领域具有重要的应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作