psi0-apple-to-plate-teleop

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/cloudwalk-research/psi0-apple-to-plate-teleop

下载链接

链接失效反馈

官方服务：

资源简介：

Psi0 Apple-to-Plate VR 遥操作数据集包含用于在Isaac Lab模拟中对Unitree G1人形机器人进行微调Psi0视觉-语言-动作（VLA）模型的人类演示的移动操作轨迹。数据集包含79个经过筛选的片段，总计86,855帧，平均每段长度为1,099帧（36.6秒），总时长约48.3分钟。数据格式采用LeRobot v2.1，包含机器人自我中心视角的视频（480x640 RGB）、关节状态（28维）、动作目标（36维）等信息。任务包括走向桌子上的苹果、用右手抓取苹果、向左走向盘子、将苹果放在盘子上等多阶段移动操作序列。数据通过Pico 4 Ultra VR头显和WebXR控制器进行遥操作收集，并使用AMO运动策略进行运动控制。数据集适用于微调Psi0 VLA模型，特别适合移动操作任务的研究和开发。

The Psi0 Apple-to-Plate VR Teleoperation Dataset contains mobile manipulation trajectories from human demonstrations used to fine-tune the Psi0 Vision-Language-Action (VLA) model on the Unitree G1 humanoid robot within the Isaac Lab simulation. The dataset includes 79 filtered segments, totaling 86,855 frames, with an average segment length of 1,099 frames (36.6 seconds) and a total duration of approximately 48.3 minutes. The data follows the LeRobot v2.1 format, containing egocentric robot-view videos (480×640 RGB), 28-dimensional joint states, 36-dimensional action targets, and other associated information. The tasks encompass multi-stage mobile manipulation sequences including walking toward an apple placed on a table, grasping the apple with the right hand, moving left toward a plate, placing the apple on the plate, and other similar sequences. The data was collected via teleoperation using the Pico 4 Ultra VR headset and WebXR controllers, with motion control executed using the AMO motion strategy. This dataset is tailored for fine-tuning the Psi0 VLA model, and is particularly well-suited for research and development related to mobile manipulation tasks.

创建时间：

2026-03-31

原始信息汇总

Psi0 Apple-to-Plate VR 遥操作数据集概述

数据集基本信息

名称: Psi0 Apple-to-Plate VR Teleoperation Dataset
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot, VLA, humanoid, teleoperation, loco-manipulation, isaac-lab, unitree-g1, psi0
数据格式: LeRobot v2.1
磁盘大小: ~390 MB

数据集摘要

属性	值
机器人	Unitree G1 29自由度（灵巧手 + 全身运动）
任务	拿起苹果，向左走并将苹果放在盘子上
情节数	79（从81个中筛选；移除了ep49=22帧 < chunk_size, ep80=元数据伪影）
总帧数	86,855
平均情节长度	1,099帧（36.6秒）
情节时长范围	19.4秒 – 73.5秒
帧率	30 Hz
总时长	~48.3分钟
模拟器	NVIDIA Isaac Lab（Isaac Sim 4.5 + PhysX 5）
场景	`apple_to_plate`（从RoboCasa/MuJoCo移植，RTX渲染）
采集方法	VR遥操作（Pico 4 Ultra头显 + WebXR控制器）
运动控制	AMO策略（System-0，基于强化学习，50 Hz控制频率）

任务描述

操作员佩戴Pico 4 Ultra VR头显，通过WebXR控制器在Isaac Lab中控制G1机器人。任务是一个多阶段的运动-操作序列：

向前走 向桌子上的苹果。
伸手并抓取 用右手抓住苹果。
向左走 向盘子移动。
放置将苹果放在盘子上。运动（前向/横向速度，偏航率）通过左摇杆命令并由AMO运动策略执行。上半身控制（手臂、手、躯干）通过解析逆运动学从VR控制器姿态映射。机器人以自我为中心的摄像头的WebRTC H.264视频反馈以30 FPS流式传输回VR头显。

数据格式

特征

特征	类型	形状	描述
`observation.images.egocentric`	视频（H.264）	(480, 640, 3)	RGB以自我为中心的摄像头（D435i安装座，47.6°俯仰向下）
`states`	float32	(28,)	关节位置：手(14) + 手臂(14)
`action`	float32	(36,)	动作目标：手(14) + 手臂(14) + 躯干(3) + 高度(1) + 运动(4)
`timestamp`	float32	(1,)	情节内的时间（秒）
`frame_index`	int64	(1,)	情节内的帧索引
`episode_index`	int64	(1,)	情节索引
`index`	int64	(1,)	全局帧索引
`task_index`	int64	(1,)	任务索引（所有帧均为0）
`next.done`	bool	(1,)	在情节最后一帧为True
`obs_timestamp`	float32	(1,)	观测时间戳
`action_timestamp`	float32	(1,)	动作时间戳

动作空间（36维）

索引名称描述 ───── ──── ─────────── [0:7] 左手 thumb_0/1/2, index_0/1, middle_0/1 [7:14] 右手 thumb_0/1/2, index_0/1, middle_0/1 [14:21] 左臂 shoulder_pitch/roll/yaw, elbow, wrist_roll/pitch/yaw [21:28] 右臂 shoulder_pitch/roll/yaw, elbow, wrist_roll/pitch/yaw [28:31] 躯干 roll, pitch, yaw [31] 基础高度目标站立高度（米） [32:35] 运动 vx（前向）， vy（横向）， vyaw（偏航率） [35] 目标偏航航向角（弧度）

状态空间（28维）

索引名称描述 ───── ──── ─────────── [0:7] 左手关节位置（弧度） [7:14] 右手关节位置（弧度） [14:21] 左臂关节位置（弧度） [21:28] 右臂关节位置（弧度）

动作统计（按关节）

关节	最小值	最大值	平均值	标准差
L_thumb_0	0.000	1.050	0.011	0.104
L_thumb_1	0.000	0.920	0.010	0.091
L_thumb_2	0.000	1.750	0.018	0.174
L_index_0	-1.570	0.000	-0.016	0.156
L_index_1	-1.750	0.000	-0.018	0.174
L_middle_0	-1.570	0.000	-0.016	0.156
L_middle_1	-1.750	0.000	-0.018	0.174
R_thumb_0	-1.050	0.000	-0.364	0.410
R_thumb_1	-0.920	0.000	-0.319	0.360
R_thumb_2	-1.750	0.000	-0.607	0.684
R_index_0	0.000	1.570	0.544	0.614
R_index_1	0.000	1.750	0.607	0.684
R_middle_0	0.000	1.570	0.544	0.614
R_middle_1	0.000	1.750	0.607	0.684
L_shoulder_p	-0.553	0.379	-0.159	0.162
L_shoulder_r	-0.201	0.584	0.268	0.105
L_shoulder_y	-0.064	0.604	0.246	0.095
L_elbow	-0.740	1.367	1.126	0.466
L_wrist_r	-1.012	0.611	-0.065	0.117
L_wrist_p	-1.028	0.146	-0.396	0.176
L_wrist_y	-0.621	0.348	-0.007	0.108
R_shoulder_p	-1.648	0.148	-0.485	0.300
R_shoulder_r	-0.726	0.323	-0.068	0.177
R_shoulder_y	-0.943	0.537	-0.153	0.234
R_elbow	-0.586	1.362	0.368	0.474
R_wrist_r	-0.700	1.681	0.351	0.522
R_wrist_p	-1.036	0.571	-0.249	0.329
R_wrist_y	-0.514	1.325	0.334	0.343
torso_roll	0.000	0.000	0.000	0.000
torso_pitch	0.391	0.727	0.540	0.058
torso_yaw	-0.363	0.317	-0.005	0.075
base_height	0.750	0.750	0.750	0.000
vx	-0.759	0.757	0.011	0.345
vy	-0.757	0.760	0.047	0.262
vyaw	-0.750	0.750	-0.001	0.252
target_yaw	0.000	0.000	0.000	0.000

采集流程

模拟器: NVIDIA Isaac Lab 2.3.2（Isaac Sim 4.5, PhysX 5, RTX渲染）
物理: 500 Hz内部频率，50 Hz控制频率（AMO子步数=10）
摄像头: TiledCamera 640x480 RGB安装在head_link上，匹配RealSense D435i位置和角度（47.6°俯仰向下）
运动: AMO策略（System-0）——基于强化学习，从IsaacGym移植。输入：1043+2325维本体感知。输出：15维腿部PD目标
动作语义: 绝对关节位置（非增量）
归一化: bounds类型（参见meta/stats_psi0.json）
动作-观测同步: p50 = 50ms, p95 = 66ms

目录结构

├── data/chunk-000/ │ ├── episode_000000.parquet │ ├── episode_000001.parquet │ └── ... (79个文件) ├── videos/chunk-000/egocentric/ │ ├── episode_000000.mp4 │ ├── episode_000001.mp4 │ └── ... (79个文件) ├── meta/ │ ├── info.json │ ├── episodes.jsonl │ ├── tasks.jsonl │ ├── episodes_stats.jsonl │ └── stats_psi0.json └── README.md

预期用途

该数据集设计用于使用finetune_simple_psi0_config、SimpleRepackTransform和bounds归一化来微调Psi0 VLA模型。训练流程预期：

动作块大小：30帧
VLM骨干：冻结（Qwen3-VL-2B-Instruct）
动作专家：MM-DiT（~500M参数，流匹配）
批次大小：128（16/GPU x 8 GPUs）
训练步数：40,000

数据清洗

该数据集使用scripts/data/filter_episodes.py从81个情节筛选至79个：

移除项	原因
情节49（原始）	仅22帧（0.7秒）——短于`action_chunk_size=30`，在训练期间会被填充
情节80（原始）	原始记录流程中`info.json`的元数据伪影（差一错误）
剩余情节被重新连续编号（0–78）。所有全局索引、帧索引和归一化统计均已重新计算。已使用`scripts/data/validate_dataset_preflight.py --strict`验证。

引用

如果使用此数据集，请同时引用此数据集和原始Ψ₀项目： bibtex @misc{setubal2026psi0appletoplate, title={Psi0 Apple-to-Plate VR Teleoperation Dataset}, author={Pedro Setubal and CloudWalk Research Lab}, year={2026}, howpublished={url{https://huggingface.co/datasets/cloudwalk-research/psi0-apple-to-plate-teleop}}, }

bibtex @misc{wei2026psi0, title={$Psi_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation}, author={Songlin Wei and Hongyi Jing and Boqian Li and Zhenyu Zhao and Jiageng Mao and Zhenhao Ni and Sicheng He and Jie Liu and Xiawei Liu and Kaidi Kang and Sheng Zang and Weiduo Yuan and Marco Pavone and Di Huang and Yue Wang}, year={2026}, eprint={2603.12263}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2603.12263}, }

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量演示数据的采集是模型微调的关键。该数据集通过虚拟现实遥操作技术构建，操作者佩戴Pico 4 Ultra头显，借助WebXR控制器在NVIDIA Isaac Lab仿真环境中操控Unitree G1人形机器人执行‘苹果到盘子’的移动操作任务。数据采集系统融合了AMO运动策略进行全身运动控制，并通过解析逆运动学将控制器姿态映射为上肢动作。机器人搭载的仿D435i视角的自我中心相机以30Hz帧率通过WebRTC回传视频流，确保了动作与观察的同步性。整个流程最终以LeRobot v2.1格式记录，包含79条经过筛选的完整轨迹。

特点

该数据集的核心特点在于其面向人形机器人移动操作的精细设计与丰富表征。数据内容涵盖了一个多阶段复合任务：走向目标、抓取苹果、侧向行走及放置物品，完整呈现了移动与操作协同的挑战。数据集提供了高维度的动作与状态空间，包括双手各7个关节、双臂各7个关节的位置信息，以及躯干姿态、基座高度和运动速度指令，共计36维动作与28维状态。自我中心视觉观察以H.264编码的480x640分辨率视频呈现，并附有精确的时间戳与索引。数据经过严格清洗，剔除了过短片段与元数据异常，确保了用于流匹配等先进算法训练的数据质量与一致性。

使用方法

本数据集专为微调Psi0视觉-语言-动作模型而设计，其使用需遵循特定的训练流程。数据处理通常采用`SimpleRepackTransform`进行重新打包，并应用`bounds`类型的归一化方法。模型训练时，动作序列被组织为30帧的块进行处理，视觉语言模型骨干网络保持冻结，而动作专家模型则基于约5亿参数的MM-DiT架构进行流匹配学习。典型的训练配置包括128的批量大小与40,000步的训练迭代。研究者可通过加载LeRobot格式的Parquet文件与对应视频，直接接入Psi0项目的微调管线，以提升模型在类似移动操作任务上的泛化与执行能力。

背景与挑战

背景概述

在具身智能与机器人学领域，实现人形机器人的全身运动与灵巧操作是一项核心研究课题。Psi0 Apple-to-Plate VR遥操作数据集由CloudWalk Research Lab的研究人员于2026年创建，旨在为Psi0视觉-语言-动作基础模型提供高质量的人类演示数据。该数据集聚焦于全身运动操作任务，通过虚拟现实遥操作技术，在NVIDIA Isaac Lab仿真环境中采集了Unitree G1人形机器人执行‘拾取苹果并放置于盘子’的复杂序列轨迹。其核心研究问题在于如何获取真实、连续且高维度的机器人动作-状态数据，以支持大规模VLA模型的微调，推动通用人形机器人操作能力的发展，对机器人模仿学习与仿真训练领域具有重要的基准价值。

当前挑战

该数据集致力于解决人形机器人全身运动操作这一领域难题，其挑战在于任务本身需要协调高自由度的移动基座与灵巧手，在动态环境中实现精确的抓取、携带与放置，这对动作的连续性与时空一致性提出了极高要求。在数据构建过程中，挑战同样显著：一方面，通过VR设备进行高保真、低延迟的遥操作需要克服仿真渲染、网络传输与逆运动学计算带来的同步与精度问题；另一方面，从原始81条轨迹中筛选并清理出79条有效数据，需确保每段演示的时长满足模型训练所需的块大小，并处理录制流水线可能产生的元数据异常，以保障数据集的规范性与可用性。

常用场景

经典使用场景

在具身智能与机器人学习领域，该数据集为视觉-语言-动作模型提供了宝贵的示范数据。其经典使用场景在于微调Psi0等VLA模型，以学习人形机器人在复杂环境中的全身运动与操作技能。通过整合第一人称视角的视觉观察、高维关节状态与动作指令，模型能够从人类通过VR遥操作演示的轨迹中，学习完成从走向目标、抓取苹果到行走并放置苹果至盘子的多阶段任务。

衍生相关工作

围绕此类高质量遥操作数据集，已衍生出多个重要的研究方向与经典工作。核心工作自然是Psi0基础模型本身，它展示了如何利用此类数据训练通用的人形机器人控制策略。此外，相关工作还包括对模仿学习算法（如行为克隆、扩散策略）的改进、用于处理高维连续动作空间的流匹配模型，以及旨在提升策略泛化能力与跨任务迁移性的多任务学习框架。这些工作共同推动了机器人学习从单一技能向通用能力的发展。

数据集最近研究