five

Yangyihui/nav-wam-interior-v1

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Yangyihui/nav-wam-interior-v1
下载链接
链接失效反馈
官方服务:
资源简介:
AWM Nav Interior v1是一个合成的第一人称导航视频数据集,包含轨迹和多层次自然语言指令。数据集基于InteriorGS 3D Gaussian Splatting场景,通过Habitat-GS生成,用于训练动作世界模型(AWM)。数据集包括450个场景,1,042个片段,平均时长为6.2秒,分辨率为384×384,总大小约为14 GB。每个片段包含视频、轨迹、自然语言指令等。数据集还详细说明了指令的四个层次(L1-L4),以及生成管道的八个步骤。

AWM Nav Interior v1 is a synthetic first-person navigation video dataset that includes trajectories and multi-level natural-language instructions. The dataset is generated on top of the InteriorGS 3D Gaussian Splatting scenes via Habitat-GS, and it is designed for training Action World Models (AWM). The dataset consists of 450 scenes, 1,042 episodes, with an average duration of 6.2 seconds, a resolution of 384×384, and a total size of approximately 14 GB. Each episode contains videos, trajectories, natural-language instructions, etc. The dataset also details four levels of instructions (L1-L4) and an eight-step generation pipeline.
提供机构:
Yangyihui
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于InteriorGS的450个3D高斯泼溅场景,借助Habitat-GS模拟框架构建而成。生成流程始于终点采样,从可导航的地面真实目标对象中筛选目标位姿;随后通过A*算法在膨胀占据网格上规划路径,并利用Catmull-Rom样条曲线与TOPP时间参数化生成机器人轨迹。进一步地,数据集引入SAM2视频跟踪技术提取逐帧掩码与对象事件,结合Gemini模型进行地面真实终点描述与多层级指令合成,最终形成涵盖L1至L4的层次化自然语言指令体系。
特点
该数据集的核心特色在于其多模态、多粒度信息融合设计。每段第一人称导航视频均附带完整的轨迹数据(位置、四元数与时间戳)、深度图以及多层级语言指令。指令从目标导向型(L1)逐步过渡至完整动作链描述(L3)及其风格改写(L4),为世界模型训练提供从粗略目标到精细动作的全面监督信号。此外,数据集采用场景级划分而非片段级划分,确保训练集与验证集间无场景重叠,从而有效评估模型的泛化能力。
使用方法
该数据集专为训练动作世界模型(AWM)设计,支持基于扩散的视频模型联合预测下一帧视频与低级轨迹。使用时,模型以首帧图像和自然语言指令为输入,利用L3级指令作为主要训练目标,同时可借助L1与L2指令进行目标条件与航点条件的变体训练。数据以标准化目录结构组织,每段片段内含H.264编码视频、NPZ格式轨迹、JSON格式元数据及指令文件,便于直接加载与批处理。需注意,数据集为合成视觉内容,且相机为刚性安装的机器人视角,应用于人类第一人称导航训练时需重新渲染。
背景与挑战
背景概述
该数据集由echo636团队于2026年创建,基于InteriorGS的3D高斯泼溅场景和Habitat-GS仿真平台生成,旨在为机器人导航领域的Action World Models提供训练数据。其核心研究问题是如何利用合成第一人称导航视频与多层次自然语言指令,训练扩散模型联合预测下一帧视频与底层轨迹,从而推动具身智能中视觉-语言-动作的协同建模。数据集包含450个室内场景、1042个导航片段,每个片段均提供多级指令(目标物体、路径点、完整链式指令),为视觉导航任务提供了多样化的监督信号。该工作通过整合仿真场景、语言生成与轨迹规划,丰富了人机交互与机器人自主导航的研究资源。
当前挑战
该数据集面临的挑战包括:1)领域问题层面,传统导航模型难以将高层语言指令细化为连续运动轨迹,且对空间推理和遮挡场景的泛化能力不足;2)构建过程中,合成场景中的高斯泼溅伪影(如半透明和斑点)影响视觉真实性,机器人刚性相机模型缺乏人类步态的头摆与前庭动眼反射,可能导致仿真与真实环境的迁移鸿沟;3)数据生成依赖LLM合成指令,存在16个片段因指令未命中目标物体而被标记为质量缺陷,反映出语言描述与动作执行的语义对齐困难;4)场景布局和导航路径的多样性有限,部分目标锚点接近边界(95分位距边缘仅1.11米),增加了细粒度控制的学习难度。
常用场景
经典使用场景
在具身智能与视觉导航领域,nav-wam-interior-v1数据集为训练动作世界模型(Action World Models)提供了标准化基准。其核心应用场景在于基于单帧图像与自然语言指令,联合预测下一帧视频与低级轨迹参数(dx, dy, dyaw),从而在三维室内环境中实现目标驱动的视觉导航。数据集包含450个InteriorGS场景中的1042条第一人称导航片段,每条片段均配备多层级语言指令(L1至L4),从简单的目标物体描述到完整的动作链指令,为模型提供了不同抽象层次的语义约束。经典训练范式以L3层级全链指令为监督信号,驱动扩散模型同时学习视觉动态演化与运动控制策略,形成端到端的行为预测能力。
实际应用
在实际部署层面,该数据集直接服务于家庭服务机器人、辅助导航设备与虚拟现实交互系统的开发。家庭机器人可借助在数据上预训练的动作世界模型,从用户简短的指令(如“走向餐桌旁的椅子”)实时生成精细的运动序列,在动态家居环境中保持安全的避障与目标趋近行为。对于视障辅助设备,模型可将环境图像与口语指令映射为可执行的路径规划,实现低延时的导引响应。此外,在虚拟现实与游戏应用中,该数据为基于语言驱动的智能体控制提供了高质量训练样本,使得非玩家角色(NPC)能够理解自然语言描述并展示类人化的移动策略,提升沉浸式交互体验的逼真度。
衍生相关工作
基于nav-wam-interior-v1数据集,学术界已衍生出若干富有影响力的工作方向。Habitat-GS项目利用3D高斯泼溅(3D Gaussian Splatting)作为场景表示,实现了高效且可微分的渲染管道,为后续在真实感环境中训练视觉导航模型奠定了基础设施。SAM2与Gemini语言模型的级联应用催生了自动化的数据标注流水线,推动了视频实例分割与指令生成的无监督协同进化。此外,以该数据集为基准的Action World Models架构探索了扩散模型在决策领域的边界,启发了后续将序列轨迹预测与强化学习目标函数相结合的研究,形成了从静态视觉特征到动态行为因果链的理论桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作