psi0-g1-he-pickplace-9x40ep
收藏Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/cloudwalk-research/psi0-g1-he-pickplace-9x40ep
下载链接
链接失效反馈官方服务:
资源简介:
psi0-g1-he-pickplace-9x40ep是一个面向人形机器人视觉-语言-动作(VLA)和模仿学习任务的数据集。它从Humanoid-Everyday (HE) 数据集中精选了9个拾取放置任务,并进行了重新标定,将原始Unitree G1机器人搭配Dex3-1三指手(每手7个关节自由度)的数据,转换为适用于Unitree G1搭配Inspire RH56DFTP五指手(采用六自由度锁步驱动模式)的格式。该转换确保了数据可以直接与基于Inspire约定训练的策略(如Psi0模型)或LeRobot v2.1框架进行混合微调,无需额外预处理。数据集包含360个任务片段(每个任务40个),总计121,875帧图像(30fps),采用第一人称视角的RGB视频(分辨率480x640)。数据被组织为9个独立的LeRobot v2.1格式子数据集。每个样本包含36维的动作向量和32维的状态向量。动作向量涵盖了双手的锁步开合标量(各广播至6个通道,并包含零填充)、左右臂的7自由度关节角度、躯干姿态(RPY)和高度。状态向量则去除了用于移动控制的4个通道。数据转换的核心是将Dex3-1手部7个关节角度映射为单个开合标量,具体方法是对4个远端屈曲关节求和,并进行每任务的分位数(5th/95th)归一化。针对Dex3-1左右手关节符号约定相反的问题,v1.3版本对右手数据进行了极性反转修正。此外,v1.2版本对主动手的动作通道应用了因果施密特触发器迟滞二值化处理,以消除抖动和过渡反转,而状态通道则保留原始标量值以供观测。空闲手在整个任务中被固定为完全打开状态(标量值1.0)。该数据集旨在为基于Inspire手部硬件的人形机器人策略提供丰富的任务多样性,通常需要与提供绝对抓握深度校准的本机数据集(如psi0-g1-sneaker-in-box)结合使用。
psi0-g1-he-pickplace-9x40ep is a dataset for humanoid robot vision-language-action (VLA) and imitation learning tasks. It selects 9 pick-and-place tasks from the Humanoid-Everyday (HE) dataset and recalibrates the data, converting from the original Unitree G1 robot with Dex3-1 three-fingered hands (7 joint degrees of freedom per hand) to a format compatible with Unitree G1 equipped with Inspire RH56DFTP five-fingered hands (using a six-degree-of-freedom lock-step driving mode). This conversion ensures the data can be directly used for fine-tuning with strategies trained on Inspire conventions (such as the Psi0 model) or with the LeRobot v2.1 framework, without additional preprocessing. The dataset contains 360 task episodes (40 per task), totaling 121,875 frames of images (30fps), captured from a first-person perspective as RGB videos (resolution 480x640). The data is organized into 9 independent sub-datasets in LeRobot v2.1 format. Each sample includes a 36-dimensional action vector and a 32-dimensional state vector. The action vector covers lock-step opening/closing scalars for both hands (each broadcast to 6 channels with zero padding), 7-degree-of-freedom joint angles for the left and right arms, torso posture (RPY), and height. The state vector removes 4 channels used for mobility control. The core of the data conversion involves mapping the 7 joint angles of the Dex3-1 hand to a single opening/closing scalar by summing the 4 distal flexion joints and applying per-task quantile (5th/95th) normalization. To address the opposite joint sign conventions for the left and right hands in Dex3-1, version 1.3 applies polarity inversion correction to the right-hand data. Additionally, version 1.2 applies causal Schmitt trigger hysteresis binarization to the action channels of the active hand to eliminate jitter and transition reversals, while the state channels retain original scalar values for observation. The idle hand is fixed in a fully open state (scalar value 1.0) throughout the task. The dataset aims to provide rich task diversity for humanoid robot strategies based on Inspire hand hardware, typically requiring combination with native datasets that provide absolute grasping depth calibration (such as psi0-g1-sneaker-in-box).
创建时间:
2026-05-15
原始信息汇总
数据集概述:psi0-g1-he-pickplace-9x40ep
本数据集是 Humanoid-Everyday (HE) 数据集中 9 个精选拾放任务 的重新处理版本。它将原始数据从 Unitree G1 机器人配备的 Dex3-1 三指手 的控制格式,转换为适配 Inspire RH56DFTP 五指手(锁步模式) 的格式。该数据集可直接用于 LeRobot v2.1 框架下的模仿学习或 VLA 策略微调,无需额外预处理。
核心信息
| 项目 | 内容 |
|---|---|
| 任务数量 | 9 个(均为单臂拾放任务,4 个右手主动 + 5 个左手主动) |
| 总情节数 | 360 个(每个任务 40 个情节) |
| 总帧数 | 121,875 帧(30 fps) |
| 数据格式 | LeRobot v2.1(每个任务一个独立子文件夹) |
| 相机 | 第一人称视角,480×640 RGB,H.264 yuv420p 编码,30 fps |
| 机器人 | Unitree G1(人形机器人) |
| 源手部类型 | Dex3-1(三指,每手 7 自由度) |
| 目标手部类型 | Inspire RH56DFTP(五指,6 自由度锁步模式,1.0 = 张开,0.0 = 闭合) |
| 动作维度 | 36 维 |
| 状态维度 | 32 维 |
9 个任务子文件夹详情
| # | 任务子文件夹 | 情节数 | 帧数 | 主动手 | 源 HE 类别 |
|---|---|---|---|---|---|
| 1 | unstack_two_cubes_g1 |
40 | 11,931 | 左手 | Basic |
| 2 | place_a_cube_in_a_bag |
40 | 14,251 | 右手 | Basic |
| 3 | stack_two_cubes_g1 |
40 | 15,553 | 右手 | Basic |
| 4 | stack_two_boxes |
40 | 15,544 | 右手 | Basic |
| 5 | take_out_the_lid_of_the_spray_bottle |
40 | 11,109 | 右手 | Basic |
| 6 | pick_up_a_bottle_and_hand_it |
40 | 13,222 | 左手 | HRI |
| 7 | put_dumpling_into_plate_g1 |
40 | 12,699 | 左手 | Basic |
| 8 | insert_flower_into_vase |
40 | 15,232 | 左手 | Precision |
| 9 | remove_a_soldering_gun_from_its_base_g1 |
40 | 12,334 | 左手 | Tool_use |
动作与状态空间格式
动作空间(36 维):
| 索引范围 | 描述 |
|---|---|
[0:6] |
左手手部 —— 锁步开合标量,广播至 6 个通道,范围 [0, 1] |
[6] |
左手填充位 —— 恒为 0.0 |
[7:13] |
右手手部 —— 锁步开合标量,广播至 6 个通道,范围 [0, 1] |
[13] |
右手填充位 —— 恒为 0.0 |
[14:21] |
左臂 —— 7 自由度 G1 关节角度,弧度 |
[21:28] |
右臂 —— 7 自由度 G1 关节角度,弧度 |
[28:31] |
躯干 RPY —— 恒为 (0, 0, 0) |
[31] |
躯干高度 |
状态空间(32 维): 与动作空间相同,但移除了最后 4 个运动通道(即索引 [0:31] 加上一个额外的状态维度)。
手部数据转换说明
- 7→1 标量投影:从 Dex3-1 每手 7 个关节角度中,选取代表指尖屈曲的 4 个关节(索引
[1, 2, 4, 6])的数值求和,生成一个代表手部开合程度的原始标量。 - 逐任务归一化:针对每个任务,使用其所有情节中原始标量的第 5 和第 95 百分位数 (
q05,q95) 进行线性归一化,将标量映射到[0, 1]区间(1.0 代表最张开,0.0 代表最闭合)。 - 极性修正:
- 左手 (LH):Dex3-1 左手关节的屈曲值为负。归一化后,
flex_sum = q05(闭合) →open_scalar = 0.0。 - 右手 (RH):Dex3-1 右手关节的符号约定与左手相反(屈曲值为正)。v1.3 版本通过专属修正逻辑,确保归一化后,
flex_sum = q95(物理闭合) →open_scalar = 0.0。
- 左手 (LH):Dex3-1 左手关节的屈曲值为负。归一化后,
- 动作通道二值化 (v1.2+):为消除噪点和抖动,对动作通道中的开合标量应用施密特触发器迟滞算法(
bias=0.6,delta=0.10),将值最终强制转换为{0, 1}(0 代表闭合,1 代表张开)。状态通道则保留原始的归一化标量供观察。 - 闲置手固定:在单臂任务中,非主动手的手部标量被固定为
1.0(完全张开)。
版本更新历史
- v1.3 (2026-05-15):修复了右手极性反转的错误,该错误影响 v1.0 至 v1.2 版本。
- v1.2 (2026-05-14):对主动手动作通道应用施密特触发器迟滞二值化。
- v1.1:修正了左手极性反转的错误。
搜集汇总
数据集介绍

构建方式
该数据集源自Humanoid-Everyday(HE)数据集,从中精选出9项拾取与放置任务,并经过精心重定向构建而成。原始数据由Unitree G1人形机器人搭载Dex3-1三指灵巧手采集,记录了每只手7自由度的关节角度。为了适配目标硬件Inspire RH56DFTP五指手(其驱动采用锁步模式,即单标量控制6通道的开合),研究人员设计了一套7维到1维的投影方法:选取每只手远端的4个指节弯曲关节角之和,再基于每个任务的第5百分位数和第95百分位数进行归一化,从而将高维关节角映射到[0,1]区间内的开合标量。此外,针对非活跃手的状态,直接将其标量固定为1.0(完全张开),以匹配安全默认值。最终数据以LeRobot v2.1格式组织,每个任务构成独立子文件夹,包含动作、状态、视频等完整信息,总计360个回合、121875帧,动作空间为36维,状态空间为32维。
背景与挑战
背景概述
该数据集由南加州大学PSI实验室于2026年创建,旨在弥合人形机器人灵巧操作领域中不同末端执行器之间的鸿沟。核心研究问题聚焦于如何将源自Dex3-1三手指机械手的高维抓取数据,高效且保真地映射至Inspire RH56DFTP五手指锁步机械手的低维控制空间。作为Psi0策略框架(arXiv:2603.12263)的关键组成部分,该数据集通过提供9种精心挑选的抓取与放置任务,显著提升了视觉-语言-动作(VLA)模型在异构硬件上的迁移能力与泛化性能,对人形机器人模仿学习领域产生了深远影响。
当前挑战
该数据集面临的核心挑战在于解决多源机械手运动学异构性带来的领域漂移问题:Dex3-1的7自由度独立关节动作架构与Inspire的6通道锁步标量控制模式存在根本性不匹配,需设计有效的降维投影策略以保留抓取时序中关键的开启、闭合与释放阶段。构建过程中遭遇了严苛的技术障碍,包括左右手关节符号约定镜像反转导致的极性错误(v1.1及之前版本仅纠正左手)、基于四分位数归一化时因任务特异性导致的抓取深度绝对标定丢失、以及非单调关节和信号平台抖动引发的动作二值化滞环设计难题,这些均需通过真实机器人复现测试与精细的后处理算法予以克服。
常用场景
经典使用场景
在机器人学习与模仿学习的前沿领域,该数据集为训练人形机器人灵巧操作策略提供了至关重要的桥梁。经典的使用场景集中在拾取与放置任务上,通过将宇树G1机器人搭载的Dex3-1三指手的数据重新映射至Inspire RH56DFTP五指手的锁步标量动作空间,研究者得以在LeRobot框架下直接微调视觉-语言-动作模型或模仿学习策略。其精心挑选的9个单臂操作任务,涵盖了从基础堆叠、物品抓取到工具使用与精细操作等多样性场景,为评估和提升人形机器人在复杂家居环境中的泛化能力提供了标准化基准。
实际应用
在现实世界的应用层面,该数据集为部署于人形机器人上的灵巧操作系统注入了新的生命力。其核心价值在于,使基于锁步标量控制的家用或服务机器人能够直接受益于大规模、多样化的Dex3-1手操作数据,而无需重新采集或设计复杂的动作转换器。具体而言,机器人可以学习如何稳健地完成如“将积木放入袋中”、“拔出喷雾瓶盖子”和“将花插入花瓶”等日常任务,这些技能直接迁移到家庭助手、精细装配工或实验室自动化等场景中。通过混合训练,机器人能够更好地适应不同物体的物理属性与交互范式,显著降低实际部署中的失败率与调试成本。
衍生相关工作
该数据集的发布开启了一系列重要的衍生研究工作,最直接的是它作为Psi0模型微调的关键组成部分,推动了视觉-语言-动作模型在真实人形机器人上的落地。其精心设计的动作空间与状态空间元数据(info.json)与sneaker-in-box数据集实现字节级一致,使得研究者能够利用compose_lerobot_group.py工具轻松组合多个源数据集进行联合训练。此外,数据集中明确的LH/RH关节符号约定反转问题与相关修复方案,催生了关于跨灵巧手硬件校准与验证方法的深入探讨。该工作还激发了关于任务级归一化与绝对校准数据混合策略的研究,以及基于施密特触发器的动作二值化技术,为提升机器人操作指令的鲁棒性与清晰度提供了新的思路。
以上内容由遇见数据集搜集并总结生成



