alibustami/miniVLA-Nav

Name: alibustami/miniVLA-Nav
Creator: alibustami
Published: 2026-05-02 02:25:14
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/alibustami/miniVLA-Nav

下载链接

链接失效反馈

官方服务：

资源简介：

MiniVLA-Nav v1是一个用于语言条件机器人导航任务的模拟数据集，专为语言条件对象接近（LCOA）任务设计。数据集包含1,174个情节，每个情节配有一个自然语言指令和每时间步的同步多模态观察，包括RGB、深度、实例分割等。数据收集在四个逼真的NVIDIA Isaac Sim 5.1环境中进行，支持多种任务如行为克隆和OOD泛化。数据集结构详细，包含多种模态数据和明确的数据集分割。

MiniVLA-Nav v1 is a simulation dataset for the Language-Conditioned Object Approach (LCOA) task, designed for language-conditioned robot navigation. The dataset comprises 1,174 episodes, each pairing a natural-language instruction with per-timestep, synchronized multimodal observations including RGB, depth, and instance segmentation. Data were collected in four photorealistic NVIDIA Isaac Sim 5.1 environments, supporting tasks such as behavior cloning and OOD generalization. The dataset features detailed structure with multiple modalities and clear dataset splits.

提供机构：

alibustami

搜集汇总

数据集介绍

构建方式

该数据集专为语言条件化目标接近（LCOA）任务设计，基于NVIDIA Isaac Sim 5.1仿真平台，在办公室、医院、仓库及多层货架仓库四类高保真虚拟环境中采集。采用Nova Carter差分驱动机器人，以前置640×640相机以60Hz频率同步获取RGB、深度及实例分割图像，并记录连续与离散化动作及位姿序列。数据收集依赖基于实例分割掩膜的比例控制专家策略，确保机器人能根据自然语言指令导航至目标物体1米范围内，仅保留成功轨迹，最终形成包含1174条多模态时间序列的高质量演示数据。

特点

该数据集核心优势在于多场景与多模态的深度融合，覆盖12种语义类别，其中3类留作分布外测试，支持模板改写与物体类别的泛化评估。每条轨迹均提供RGB、浮点深度、实例分割、连续与7×7离散化动作及7维位姿，兼具密度与多样性。通过近、中、远三级起始距离控制轨迹分布，确保了机器人行为的鲁棒性。数据划分为训练集、验证集及四个测试子集，为模仿学习与行为克隆提供了结构化基准，尤其突出对语言与视觉双重分布偏移的评测能力。

使用方法

该数据集以HuggingFace格式发布，目录结构清晰，包含全局元数据、场景目标字典及按场景组织的episode文件夹。用户可通过Python标准库快速加载：解析‘splits/’中的任务划分文件获取episode ID，基于‘episodes/’目录按时间步读取PNG格式图像与NumPy格式深度、动作、位姿文件，结合‘meta.json’获取自然语言指令及终止条件。推荐用于行为克隆训练，支持连续动作回归或离散动作分类，并可直接利用预设划分评估模型在已知及未见目标、非模板化语言指令下的泛化性能。

背景与挑战

背景概述

MiniVLA-Nav v1数据集由Ali Al-Bustami与Jaerock Kwon于2026年创建，是面向语言条件机器人导航（Language-Conditioned Object Approach, LCOA）任务的仿真数据集。该数据集基于NVIDIA Isaac Sim 5.1平台，在办公室、医院、全仓库和多货架仓库四种高保真场景中，采集了1174条成功导航轨迹，每条轨迹均包含自然语言指令与同步的RGB、深度、实例分割等多模态观测数据，以及连续或离散的动作标签。数据集专为模仿学习与行为克隆设计，提供了结构化评估划分以测试模型在语言模板和物体类别上的分布外泛化能力，为弥补真实机器人数据稀缺、推进视觉-语言-动作模型在导航任务中的发展提供了重要资源。

当前挑战

该数据集解决的核心领域挑战在于如何使差分驱动机器人在语言指令引导下，仅依靠前视深度与RGB观测精准接近指定物体并停止在1米范围内，这对多模态感知与动作预测的协同提出了高要求。构建过程中面临的挑战包括：如何在仿真环境中生成多样化且物理合理的轨迹，通过三轮距离采样策略（近、中、远）确保轨迹长度与起始距离的高度相关（r=0.94）；如何设计可靠的专家控制器，结合分割掩模像素级可见性与深度信息实现比例控制，并嵌入避障逻辑以避免碰撞；此外，还需处理USD资产缺乏材质颜色属性的限制，导致颜色槽模板无法使用，以及如何构造包含18种训练模板和12种分布外模板的语言指令集以增强泛化性。

常用场景

经典使用场景

在机器人导航与视觉语言理解交叉领域，MiniVLA-Nav v1数据集为语言条件下的物体趋近任务提供了标准化的多模态仿真环境。该数据集包含1,174个高质量演示片段，每个片段均同步记录了前视RGB图像、度量深度图、实例分割掩码、连续与离散化动作序列以及机器人位姿信息。研究者可利用这些密集的专家轨迹进行行为克隆或模仿学习训练，构建能够理解自然语言指令并驱动差分驱动机器人导航至指定目标的端到端策略模型。数据集精心划分了训练、验证及多种测试子集，特别设计了模板释义和未见物体类别两种分布外泛化评估场景，使得模型在语言理解与视觉感知上的鲁棒性得以系统衡量。

实际应用

MiniVLA-Nav数据集的核心应用前景在于赋能服务机器人具备自然语言交互下的自主导航能力。在仓储物流场景中，工作人员可下达“去取那个蓝色货架上的箱子”等指令，机器人便能结合视觉感知理解目标物体并自主规划路径趋近。在医院护理环境中，机器人可依据“前往护士站附近的白色写字板”等指令完成物资配送。在智能家居和办公楼宇内，该技术使机器人能理解“走到沙发旁边”等日常用语并在复杂室内环境中安全行驶。数据集中的传感器配置与差分驱动机器人平台与现实中的商用移动机器人高度匹配，使得基于此数据集训练的策略具备良好的迁移潜力，从而缩短从仿真研究到真实部署的技术转化周期。

衍生相关工作

MiniVLA-Nav数据集的发布催生了一系列具有代表性的后续研究工作。基于其提供的多模态观测与精细动作标签，研究者发展出多种视觉-语言-动作联合建模方法，如融合注意力机制的多模态编码器架构，以及采用离散化动作空间的语言条件策略网络。相关工作还聚焦于数据的高效利用策略，包括利用预训练的大语言模型进行指令增强，以及设计对抗性分布外样本提升模型泛化边界。此外，该数据集还启发了对机器人导航中语言指令模糊性消解问题的深入探讨，衍生出融合场景图与层级规划的新型导航框架。这些工作共同推进了对语言引导机器人导航底层机制的认知，并持续深化导航策略在复杂动态环境中的适应性探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集