PAI_UE-IsaacSim-Navigation

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/KRAFTON/PAI_UE-IsaacSim-Navigation

下载链接

链接失效反馈

官方服务：

资源简介：

Physical AI: Unreal Engine - Isaac Sim 导航数据集是为Unitree G1人形机器人设计的演示数据集，展示了机器人在程序生成的室内环境中基于视觉的物体导航能力。数据集使用Isaac Sim进行物理计算，Unreal Engine进行渲染。数据集包含三个变体，分别包含100个场景，每个场景有1、3或5个目标物体。数据集遵循LeRobot v2格式，包括元数据、数据和视频文件。特征包括前摄像头RGB视频、关节位置和速度、根位置和方向、高低级动作命令等。数据集适用于机器人导航和动作控制任务，支持多数据集合并和统计生成。

Physical AI: Unreal Engine - Isaac Sim Navigation Dataset is a demonstration dataset designed for the Unitree G1 humanoid robot, showcasing the robot's vision-based object navigation capabilities in procedurally generated indoor environments. The dataset uses Isaac Sim for physics simulation and Unreal Engine for rendering. It includes three variants, each containing 100 scenes with 1, 3, or 5 target objects respectively. The dataset follows the LeRobot v2 format, including metadata, data, and video files. Features include front-facing RGB video, joint positions and velocities, root position and orientation, low-level and high-level action commands, etc. This dataset is applicable to robot navigation and motion control tasks, and supports multi-dataset merging and statistics generation.

创建时间：

2026-02-09

原始信息汇总

Physical AI: Unreal Engine - Isaac Sim Navigation Dataset 概述

数据集简介

该数据集展示了Unitree G1人形机器人在程序化生成的室内环境中执行基于视觉的物体导航的演示数据。物理计算由Isaac Sim执行，渲染由Unreal Engine完成。

任务描述

机器人接收前置摄像头图像和指定场景中目标物体的语言指令。它必须结合使用高层速度命令（HLC）和低层关节位置动作（LLC）导航至目标物体。

数据集变体

数据集名称	情节数	描述
`g1_procedural_room_navigation_20260206_062009`	100	每个场景包含5个物体
`g1_procedural_room_navigation_20260206_080307`	100	每个场景包含1个物体
`g1_procedural_room_navigation_20260206_095145`	100	每个场景包含3个物体

数据集格式

数据集遵循LeRobot v2格式，目录结构如下：

g1_procedural_room_navigation_*/ ├── meta/ │ ├── info.json │ ├── episodes.jsonl │ ├── tasks.jsonl │ ├── modality.json │ └── stats.json ├── data/ │ └── chunk-{NNN}/ │ └── {episode_index:06d}.parquet └── videos/ └── chunk-{NNN}/ └── observation.images.front/ └── episode_{episode_index:06d}.mp4

数据特征

特征	类型	形状	描述
`observation.images.front`	视频	(480, 640, 3)	前置摄像头RGB图像，50 fps
`observation.state.joint_pos`	float32	(29,)	关节位置（弧度）
`observation.state.joint_vel`	float32	(29,)	关节速度（弧度/秒）
`observation.state.root_pos_w`	float32	(3,)	世界坐标系下的根位置
`observation.state.root_quat_w`	float32	(4,)	根朝向四元数 (w, x, y, z)
`observation.state.root_lin_vel_b`	float32	(3,)	本体坐标系下的根线速度
`observation.state.root_ang_vel_b`	float32	(3,)	本体坐标系下的根角速度
`action.hlc_raw`	float32	(3,)	原始高层命令 (vx, vy, omega_z)
`action.hlc_processed`	float32	(3,)	处理后的HLC（缩放、偏移、裁剪）
`action.llc_raw`	float32	(29,)	原始低层关节位置目标
`action.llc_processed`	float32	(29,)	处理后的LLC（围绕默认姿势缩放）
`timestamp`	float64	(1,)	自情节开始的时间（秒）
`episode_id`	int64	(1,)	情节索引
`frame_id`	int64	(1,)	情节内的帧索引

机器人配置

模型: Unitree G1
关节: 29自由度（腿、腰部、手臂、手腕）
关节顺序: IsaacLab约定
帧率: 50 FPS

数据集合并

通过运行脚本 demo_data/scripts/combine_datasets.py 可将多个采集会话合并为单个数据集。该操作将：

对所有源数据连续重新索引情节（0, 1, ..., N-1）
复制更新了episode_id列的parquet文件
将视频文件符号链接至原始文件（不重复）
合并episodes.jsonl并更新索引
创建meta/origin.yaml以跟踪合并的源数据集
当总情节数超过chunks_size时，正确将情节分桶到chunk-NNN/目录

统计信息生成

合并后（或对于任何新数据集），可使用以下命令生成stats.json： bash python gr00t/data/stats.py <dataset_path> --embodiment-tag <embodiment-tag>

该脚本计算所有parquet文件中每个特征的统计信息（均值、标准差、最小值、最大值、q01、q99）并写入meta/stats.json。如果具体化配置中配置了相对动作表示，它还会生成meta/relative_stats.json。

搜集汇总

数据集介绍

构建方式

在具身智能的演进历程中，高质量的仿真数据对于机器人导航算法的训练至关重要。PAI_UE-IsaacSim-Navigation数据集通过程序化生成技术，构建了多样化的室内导航场景。其核心流程整合了Unreal Engine的高保真渲染能力与Isaac Sim的精确物理模拟，为Unitree G1人形机器人创建了包含1至5个目标物体的任务环境。每个导航片段均以机器人接收前向摄像头图像和自然语言指令为起点，完整记录了从高层速度指令到底层关节位置动作的闭环交互序列，并以LeRobot v2标准格式进行结构化存储。

特点

该数据集在机器人学习领域展现出鲜明的多模态与高维度特性。其不仅提供了分辨率达480x640、帧率为50fps的前视RGB视频流，还详尽收录了机器人29个自由度的关节位置、速度，以及本体在世界坐标系与机体坐标系下的位姿与速度信息。数据集包含三个变体，分别对应场景中不同数量的目标物体，共计300个导航片段，为算法提供了从简单到复杂的环境泛化挑战。所有数据均经过严格处理，包含原始与规整化后的动作指令，确保了其在模仿学习与强化学习框架下的直接可用性。

使用方法

为便于研究者开展基于视觉与语言的导航算法研究，该数据集已适配主流的机器人学习框架。用户可通过标准的LeRobot v2数据加载器直接读取数据，其分块存储的Parquet文件与对应的视频文件结构清晰。数据集支持灵活的合并操作，用户可利用配套脚本将多个采集会话的数据集无缝整合为一个连续索引的更大规模数据集。此外，通过运行特定的统计生成脚本，可以自动计算所有特征的全局统计量，为数据标准化与模型训练提供必要的预处理支持。

背景与挑战

背景概述

随着具身智能领域的快速发展，机器人导航任务正从传统的结构化环境向复杂、动态的室内场景演进。PAI_UE-IsaacSim-Navigation数据集由NVIDIA等机构的研究团队于2024年创建，旨在推动基于视觉与语言指令的人形机器人导航研究。该数据集聚焦于Unitree G1人形机器人在程序化生成的室内环境中执行目标导向导航的核心问题，通过整合Isaac Sim的物理仿真与Unreal Engine的高保真渲染，为多模态感知与决策模型提供了高质量的仿真基准。其构建不仅体现了仿真技术在机器人学习中的关键作用，也为解决现实世界中机器人自主交互的泛化能力奠定了数据基础。

当前挑战

该数据集致力于解决视觉语言导航领域的核心挑战，即如何使机器人仅凭单目视觉输入和自然语言指令，在充满未知障碍物的非结构化室内环境中精准定位并导航至指定目标。这一任务要求模型具备跨模态语义对齐、长时序决策规划以及复杂物理交互的协同能力。在数据构建过程中，研究团队面临程序化环境生成的一致性保障、高维连续动作空间的数据采集效率，以及仿真与真实世界间的域差异弥合等多重技术难题。这些挑战共同指向了仿真到现实迁移的可靠性瓶颈，为后续算法研究提供了明确的改进方向。

常用场景

经典使用场景

在具身智能与机器人导航领域，PAI_UE-IsaacSim-Navigation数据集为基于视觉的物体导航任务提供了标准化的仿真环境。该数据集通过结合Isaac Sim的物理引擎与Unreal Engine的高保真渲染，模拟了Unitree G1人形机器人在程序化生成的室内场景中执行导航任务的过程。经典使用场景涉及机器人接收前向摄像头图像与自然语言指令，通过高层速度命令与低层关节位置动作的协同，实现精准的目标物体定位与路径规划，为端到端导航策略的研发奠定了数据基础。

解决学术问题

该数据集有效应对了机器人导航研究中仿真与真实世界差距的挑战，通过程序化生成多样化室内环境与物体布局，解决了传统数据集场景单一、泛化能力不足的学术问题。其融合物理计算与视觉渲染的技术框架，为研究多模态感知下的导航策略提供了可靠平台，显著推动了具身智能在复杂动态环境中的适应性与鲁棒性探索，对缩小仿真训练与实际部署间的性能差异具有深远意义。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，主要集中在基于LeRobot v2格式的强化学习与模仿学习算法开发。例如，结合高层命令与低层动作的层次化策略网络设计、多模态融合下的视觉语言导航模型优化，以及跨仿真域迁移学习方法的探索。这些工作不仅拓展了数据集的利用维度，也为具身智能领域的算法创新与基准测试建立了重要参照。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集