PAI-HE-full

Hugging Face2026-02-27 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/KRAFTON/PAI-HE-full

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学相关的数据集，使用LeRobot创建。数据集包含598个episodes，总计350882帧，涉及27个不同的任务。数据存储为parquet格式文件，并包含598个视频文件。数据集详细记录了机器人（Unitree_G1_Dex3_Wholebody_GR00T_N1D6型）的观察状态和动作，包括43个关节和身体部位的状态信息（如左/右髋关节、膝关节、踝关节、肩关节、肘关节、手腕及手指等）。此外，数据集还包含机器人自我视角的图像（480x640分辨率，3通道，30fps）、时间戳、帧索引、episode索引和任务索引等信息。该数据集适用于机器人控制、行为模仿等研究任务，采用apache-2.0许可证。

创建时间：

2026-02-27

原始信息汇总

数据集概述

基本信息

数据集名称: PAI-HE-full
发布者: KRAFTON
许可证: Apache-2.0
任务类别: 机器人学
创建工具: 使用 LeRobot 创建

数据集规模

总情节数: 598
总帧数: 350882
总任务数: 27
总视频数: 598
数据块数: 1
数据块大小: 1000
帧率: 30 FPS

数据集结构

数据格式: Parquet 文件
数据路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
数据划分: 全部数据（索引 0 至 598）均用于训练。

机器人平台

机器人类型: Unitree_G1_Dex3_Wholebody_GR00T_N1D6
代码库版本: v2.1

数据特征

数据集包含以下关键特征：

观测值

observation.state: 一个形状为 [43] 的浮点数组，表示机器人的 43 个关节状态。具体关节名称包括：
- 左/右髋关节、膝关节、踝关节（俯仰、横滚、偏航）
- 腰部关节（偏航、横滚、俯仰）
- 左/右肩关节、肘关节、腕关节（俯仰、横滚、偏航）
- 左/右手的手指关节（拇指、中指、食指）
observation.images.ego_view: 第一人称视角的视频数据。
- 形状: [480, 640, 3] （高度，宽度，通道）
- 视频信息:
  - 高度: 480 像素
  - 宽度: 640 像素
  - 编解码器: av1
  - 像素格式: yuv420p
  - 非深度图
  - 帧率: 30 FPS
  - 通道数: 3
  - 无音频

动作

action: 一个形状为 [43] 的浮点数组，表示发送给机器人 43 个关节的控制指令。关节名称与 observation.state 完全一致。

元数据

timestamp: 浮点型时间戳。
frame_index: 整型帧索引。
episode_index: 整型情节索引。
index: 整型数据索引。
task_index: 整型任务索引。

引用信息

主页: 未提供
论文: 未提供
BibTeX 引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动算法进步的关键基石。PAI-HE-full数据集依托LeRobot开源框架构建，系统采集了Unitree G1全身仿人机器人的多模态交互数据。该数据集通过记录机器人在执行27项不同任务时的连续状态与动作序列，形成了总计598条完整轨迹，涵盖超过35万帧的观测记录。数据以Parquet格式高效存储，并辅以同步录制的第一视角视频，确保了时序信息的高度对齐与完整性。

特点

该数据集的核心特征在于其详尽的多模态表征与精细的解剖学结构标注。观测状态与动作空间均以43维浮点向量精确刻画，完整覆盖了机器人下肢、躯干、上肢及灵巧手的所有关节自由度，为全身运动控制研究提供了高维度的连续信号。同时，数据集提供了分辨率为640x480、帧率为30Hz的同步视觉流，实现了感知与动作在时间维度上的严格同步。这种结构化的数据组织方式，使得每一帧数据都关联了精确的时间戳、任务索引与轨迹标识，极大便利了复杂策略的端到端学习。

使用方法

为便于研究者高效利用，数据集已预先划分为训练集，可直接通过HuggingFace数据集库加载。数据采用分块存储策略，用户可根据提供的路径模板访问具体的Parquet数据文件及对应的MP4视频文件。在典型应用场景中，研究者可并行读取机器人的关节状态观测、对应的动作指令以及第一视角图像，用于训练模仿学习、强化学习或视觉-动作映射模型。数据集遵循Apache 2.0许可协议，鼓励在机器人行为克隆、多任务策略学习等前沿方向进行广泛的学术探索与算法验证。

背景与挑战

背景概述

PAI-HE-full数据集是机器人学习领域的一项重要资源，专注于全身仿人机器人的控制与决策研究。该数据集由HuggingFace的LeRobot项目团队创建，旨在为复杂机器人系统的端到端学习提供大规模、多模态的演示数据。数据集记录了Unitree G1 Dex3 Wholebody GR00T N1D6机器人在执行27种不同任务时的状态观测、动作序列及视觉信息，涵盖了从腿部运动到精细手部操作的全身协同控制。其包含598个完整交互片段，总计超过35万帧数据，为机器人模仿学习、强化学习及行为克隆等算法提供了丰富的训练素材，推动了具身智能在真实物理环境中的泛化能力发展。

当前挑战

PAI-HE-full数据集致力于解决全身仿人机器人在动态环境中进行多任务协同控制的难题，其核心挑战在于高维连续动作空间的精确建模与多模态感知的融合。机器人需同时协调43个关节的自由度，实现从步行平衡到物体操控的平滑过渡，这对算法的实时性与稳定性提出了极高要求。在数据构建过程中，面临物理系统噪声干扰、传感器同步校准以及长时序演示数据的采集与标注等挑战。此外，确保动作轨迹的安全性、多样性以及跨任务的可迁移性，亦是该数据集在推动机器人自主学习范式演进中的关键瓶颈。

常用场景

经典使用场景

在机器人学习领域，PAI-HE-full数据集以其丰富的全身机器人动作记录，为模仿学习与强化学习算法的训练提供了关键支持。该数据集涵盖了Unitree G1 Dex3机器人在27种不同任务中的598个完整交互片段，包含高维状态观测与动作数据，以及第一视角的视觉信息，使得研究者能够基于真实机器人交互轨迹，训练端到端的控制策略，从而推动机器人自主执行复杂操作任务的能力发展。

衍生相关工作

围绕PAI-HE-full数据集，已衍生出诸多聚焦于机器人模仿学习与视觉-动作映射的经典研究工作。这些工作通常利用其多模态序列，开发先进的序列建模架构，如时空变换器，以预测机器人的连续动作。同时，该数据集也常被用作基准，用于评估不同离线强化学习算法在复杂机器人控制任务上的泛化能力与样本效率，推动了算法在真实硬件上的适配与优化。

数据集最近研究