psi0-g1-sneaker-6ep-v2-eval
收藏Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/cloudwalk-research/psi0-g1-sneaker-6ep-v2-eval
下载链接
链接失效反馈官方服务:
资源简介:
Psi0 G1 Sneaker-in-Box — 6ep v2 eval (held-out) 是一个专门用于机器人模仿学习模型分布外(OOD)评估的保留数据集。该数据集源自规范的205个片段源数据集,精心挑选出6个片段(3个左手操作,3个右手操作),共计1791帧视频,在模型训练过程中完全未被使用,旨在严格测试Psi0 v2微调模型的泛化能力而非记忆能力。数据遵循LeRobot v2.1格式,包含来自Unitree G1人形机器人搭配Inspire RH56DFTP灵巧手的自我中心视角视频(640×480)、36维动作空间和32维状态空间,任务指令为“捡起运动鞋并放入盒中”。数据集的核心价值体现在其附带的详细开环评估结果中:分析揭示了模型在训练集(ID)上表现良好但在该保留集上出现显著性能下降(如手部关节误差OOD/ID比达7.2倍),并发现了模型对右手操作场景泛化能力明显弱于左手(误差约3倍)的不对称现象,从而指出“右侧场景多样性”是后续模型改进的关键瓶颈。该数据集与训练集`psi0-g1-sneaker-199ep-v2`配对,共同完整覆盖源数据,主要用于机器人视觉-语言-动作(VLA)模型的性能评估、过拟合检测及算法改进方向的实证分析。
Psi0 G1 Sneaker-in-Box — 6ep v2 eval (held-out) is a held-out dataset specifically designed for out-of-distribution (OOD) evaluation of robot imitation learning models. It is derived from a canonical source dataset of 205 episodes, carefully selecting 6 episodes (3 left-hand operations, 3 right-hand operations), totaling 1791 video frames, which were entirely unused during model training, aiming to rigorously test the generalization capability rather than memorization of the Psi0 v2 fine-tuned model. The data follows the LeRobot v2.1 format, including egocentric videos (640×480) from a Unitree G1 humanoid robot equipped with Inspire RH56DFTP dexterous hands, a 36-dimensional action space, and a 32-dimensional state space, with the task instruction being pick up the sneaker and put it in the box. The core value of the dataset lies in its detailed open-loop evaluation results: analysis reveals that the model performs well on the training set (ID) but exhibits significant performance degradation on this held-out set (e.g., a 7.2x ratio in hand joint error OOD/ID), and discovers an asymmetric phenomenon where the models generalization capability for right-hand operation scenarios is significantly weaker than for left-hand (error approximately 3x), thus pointing out that right-side scenario diversity is a key bottleneck for subsequent model improvement. This dataset is paired with the training set `psi0-g1-sneaker-199ep-v2`, together covering the source data comprehensively, and is primarily used for performance evaluation, overfitting detection, and empirical analysis of algorithm improvement directions for robot vision-language-action (VLA) models.
创建时间:
2026-05-06
原始信息汇总
数据集详情总结:Psi0 G1 Sneaker-in-Box — 6ep v2 eval (held-out)
数据集基本信息
| 属性 | 值 |
|---|---|
| 数据集名称 | Psi0 G1 Sneaker-in-Box — 6ep v2 eval (held-out) |
| 数据集地址 | https://huggingface.co/datasets/cloudwalk-research/psi0-g1-sneaker-6ep-v2-eval |
| 许可协议 | Apache-2.0 |
| 语言 | 英语 |
| 任务类别 | 机器人学 |
| 大小类别 | 1K < n < 10K |
| 标签 | 机器人学、模仿学习、评估、held-out、VLA、视觉-语言-动作、人形机器人、Unitree G1、Inspire RH56DFTP、双臂、LeRobot、Psi0、arxiv:2603.12263 |
数据集用途
该数据集是 v2 Psi0 微调模型的留出法(held-out)评估集,包含 6 个片段(3 个左手 + 3 个右手),从源数据集 psi0-g1-sneaker-205ep-v2-source 中拆分出来,在训练过程中从未被模型见过。其训练伙伴为 psi0-g1-sneaker-199ep-v2,两者共同完整重构了规范源数据集(6 + 199 = 205 个片段)。
核心用途:作为开放环路的分布外(OOD)评估探针,用于检测模型是否过拟合训练分布。
数据集统计
| 统计项 | 值 |
|---|---|
| 片段数 | 6 |
| 总帧数 | 1,791 @ 30 fps |
| 数据格式 | LeRobot v2.1 |
| 摄像头 | 自中心视角,640×480,H.264 yuv420p |
| 机器人平台 | Unitree G1 + Inspire RH56DFTP(5指,每侧6个主动自由度,填充至14维) |
| 动作维度 | 36 |
| 状态维度 | 32 |
| 任务指令 | "Pick up the sneaker and place it inside the box." |
| 来源数据集 | psi0-g1-sneaker-205ep-v2-source,具体片段索引:[41, 56, 91, 101, 162, 181] |
片段详情
| 评估索引 | 原始索引 | 手侧 | 间隔值 | 长度(帧) | 左侧未使用 | 右侧未使用 |
|---|---|---|---|---|---|---|
| 0 | 41 | RIGHT | 0.5275 | 216 | 1.000 | 0.472 |
| 1 | 56 | RIGHT | 0.5610 | 295 | 1.000 | 0.439 |
| 2 | 91 | RIGHT | 0.5314 | 255 | 1.000 | 0.469 |
| 3 | 101 | LEFT | 0.5453 | 276 | 0.455 | 1.000 |
| 4 | 162 | LEFT | 0.5425 | 424 | 0.458 | 1.000 |
| 5 | 181 | LEFT | 0.5211 | 325 | 0.479 | 1.000 |
选择标准
- 手侧判定:基于每个片段动作均值计算,
left_unused(角度0-6均值)和right_unused(角度7-13均值),值接近1.0表示对应手空闲。 - 筛选条件:高间隔值(> 0.52)、覆盖规范源数据集的每侧索引范围(右侧索引0–93,左侧索引94–204)、长度多样化(216–424帧,跨度1.96倍)。
- 帧占比:总留出帧数(1,791)占规范源数据集(62,447帧)的 2.87%。
开放环路评估结果(v2 微调,2026-05-07)
评估设置
- 模型:
cloudwalk-research/psi0-g1-sneaker-199ep-v2-finetune,检查点:20k / 30k / 40k - ID 评估:从训练集
psi0-g1-sneaker-199ep-v2随机抽取6个片段(种子42,1,771帧) - OOD 评估:本数据集全部6个片段(1,791帧),以及子集 OOD-RIGHT(索引0,1,2,766帧)和 OOD-LEFT(索引3,4,5,1,025帧)
- 参数:
--stride 1 --num-inference-steps 10,单 GPU(RTX 5090)
核心结论
- 模型存在严重过拟合:ID 性能良好,但 OOD 性能大幅下降。
- 最优检查点为 ckpt_30000:训练超过30k步后,OOD 的
arm_joints出现退化(0.609 → 0.628 → 0.632),而 ID 持续改善,这是典型的过拟合信号。 - 右侧手部性能显著弱于左侧:ckpt_40000 时 OOD-RIGHT
hand_joints误差(0.2135)是 OOD-LEFT(0.0698)的 3.06 倍,尽管训练集左右手比例仅为1.19倍(108 L / 91 R)。 - 不推荐使用 ckpt_40000 进入 Phase 14 真实机器人评估,优先推荐 ckpt_30000。
定量的评估结果
表A — ckpt_40000 的 ID vs OOD vs 各侧对比
| 指标组 | ID(训练集随机6个) | OOD 全部6个 | OOD-LEFT(索引3,4,5) | OOD-RIGHT(索引0,1,2) | OOD/ID 比率 | OOD–ID 差值 | 两侧差异 |
|---|---|---|---|---|---|---|---|
| hand_joints | 0.0138 | 0.1000 | 0.0698 | 0.2135 | 7.2 倍 | +0.0862 | 67.3%(右侧比左侧差 3.06 倍) |
| arm_joints | 0.1140 | 0.6318 | 0.6614 | 0.6168 | 5.5 倍 | +0.5178 | 6.7%(对称) |
表B — 各检查点 OOD 全部6个(核心收敛信号)
| 检查点 | hand_joints | arm_joints |
|---|---|---|
| 20,000 | 0.1201 | 0.6090 ← 最佳 |
| 30,000 | 0.1009 | 0.6278 |
| 40,000 | 0.1000 ← 最佳 | 0.6318 |
表C — 各检查点各侧 OOD 分解
| 检查点 | LEFT hand | LEFT arm | RIGHT hand | RIGHT arm |
|---|---|---|---|---|
| 20,000 | 0.1034 | 0.6189 | 0.2308 | 0.6167 |
| 30,000 | 0.0683 | 0.6480 | 0.2125 | 0.6121 |
| 40,000 | 0.0698 | 0.6614 | 0.2135 | 0.6168 |
决策与优先级
结论:ckpt_40000 的 OOD 性能远超可接受的阈值,禁止直接进入 Phase 14 真实机器人评估。如需部署,优先选择 ckpt_30000。
v3 优化优先级(按预期影响排序):
- 右侧场景多样性(运动鞋姿态、光照、干扰物 —— 单纯增加片段数无法解决 3 倍手部误差差距)
- 恢复/负面场景(从 v1 遗留,v2 未解决)
- 将 OOD 探针嵌入训练循环作为早停信号
- 更高的片段数(约 1.5–2 倍),以降低相同训练步数下的有效周期数
相关数据集
| 数据集 | 片段数 | 手部分布 | 用途 |
|---|---|---|---|
psi0-g1-sneaker-94ep-v1 |
94 | 0 L / 94 R | v1 微调(仅右手) |
psi0-g1-sneaker-205ep-v2-source |
205 | 111 L / 94 R | 规范不可变源数据集 |
psi0-g1-sneaker-199ep-v2 |
199 | 108 L / 91 R | 本数据集的 v2 训练伙伴 |
psi0-g1-sneaker-6ep-v2-eval(本数据集) |
6 | 3 L / 3 R | v2 留出法开放环路评估 |
下载方式
python import os from huggingface_hub import snapshot_download snapshot_download( repo_id=cloudwalk-research/psi0-g1-sneaker-6ep-v2-eval, repo_type=dataset, local_dir=data/real/psi0-g1-sneaker-6ep-v2-eval, )
搜集汇总
数据集介绍

构建方式
该数据集专为评估人形机器人模仿学习模型的泛化性能而设计,从规范化的205段源数据集中精心筛选出6段从未参与训练的保留片段,构成一个独立的测试集。为确保样本的代表性与挑战性,构建时依据左右手动作均值的差异度挑选,所选片段的左右手臂闲置度差值均超过0.52,且来源索引在两侧数据范围内均匀分布,以捕捉跨天采集的多样性。片段长度亦覆盖216至424帧的广泛区间,总帧数1,791帧占全集2.87%,在控制规模的同时保证了评估的统计意义。最终数据以LeRobot v2.1格式存储,包含单视角640×480 H.264视频、36维动作与32维状态信息,并附有计算自本子集而非训练集的统计元数据。
特点
该数据集的核心价值在于其作为开放性分布测试探针的独特定位,旨在揭示模型在未见过演示上的真实行为偏差。评估结果清晰地揭露了v2微调模型在学习过程中出现的典型过拟合迹象:在分布内测试集上关节误差持续下降的同时,分布外误差在30,000步后出现反弹,二者差距在手腕关节达到7.2倍、手臂关节达到5.5倍。更为精细的侧面分析显示,右手抓取场景因物体位姿、光照等多样性不足,其指尖轨迹误差高达左手的三倍,而手臂运动误差却保持对称,揭示了场景多样性而非数据量是制约泛化的瓶颈。该数据集还佐证了30,000步检查点在分布外性能上优于40,000步,为模型部署提供了关键决策依据。
使用方法
研究者可通过Hugging Face Hub直接下载该数据集,命令为`snapshot_download(repo_id='cloudwalk-research/psi0-g1-sneaker-6ep-v2-eval', repo_type='dataset', local_dir='...')`,下载后需运行`scripts/data/patch_lerobot_meta.py`以完成元数据适配。在评估阶段,建议配合训练集分布内子集进行对比实验,使用开环评估脚本`openloop_eval_psi0.py`并指定`--eval-dataset-id`参数指向本数据集。为深入分析左右手侧差异,可通过`--episode-indices 0 1 2`与`--episode-indices 3 4 5`分别评估右手与左手场景。评估时需注意保持训练时的归一化统计量不变,仅更换数据加载来源,以确保结果的可比性。
背景与挑战
背景概述
该数据集由CloudWalk Robotics Lab于2026年创建,作为Psi0系列研究的一部分,旨在评估基于视觉-语言-动作模型的人形机器人灵巧操作能力。核心研究问题聚焦于评估模型在未见过的场景中泛化执行“将运动鞋拾取并放入盒子”这一任务的能力。该数据集从205集原始数据中精心挑选了6集作为留出评估集,覆盖左右手操作(各3集),并确保在训练过程中完全不可见。作为Psi0模型评估流程的关键组成部分,它揭示了模型在分布外场景下的性能瓶颈,为后续的模型改进和数据收集策略提供了重要参考,对仿人机器人学习领域具有显著的实证价值。
当前挑战
该数据集的核心挑战在于揭示并量化分布外泛化与过拟合之间的尖锐矛盾。具体而言,模型在训练集上表现优异(手部关节误差仅0.0138 rad),但在留出评估集上性能急剧恶化(手部关节误差达0.100 rad,为分布内的7.2倍;手臂关节误差0.632 rad,为5.5倍),展现了典型的过拟合特征。此外,构建过程中面临严峻的左右手不对称挑战:尽管训练集左右手比例仅1.19:1,右手拾取任务的手部关节误差却是左手的3倍,表明场景多样性而非原始数据量才是提升泛化能力的关键瓶颈。该评估集还揭示,超过30k步的训练优化反而导致了分布外手臂关节性能的退化。
常用场景
经典使用场景
在机器人模仿学习与视觉-语言-动作模型的研究范式中,Psi0 G1 Sneaker-in-Box 6-ep v2 eval 数据集被精心设计为一种标准的开环评估基准,专用于衡量人形机器人在精细化双手操作任务上的泛化能力。该数据集包含了6个从未参与训练的保留测试片段,均匀覆盖左右手操作场景,并围绕“拾取运动鞋并放入盒中”这一具体指令展开。其最经典的使用方式是将训练集与保留评估集进行对比,通过分析模型在分布内与分布外数据上的关节误差差异,量化过拟合程度与泛化瓶颈。这一评估框架成为验证视觉-语言-动作模型从记忆到真正泛化能力跃迁的关键工具。
解决学术问题
该数据集解决了机器人学习领域中一个核心且棘手的学术问题:如何可靠地检测和量化模仿学习模型在双手操作任务上的过拟合与泛化失败。通过精心挑选的高边界、跨天数、长度多样的保留集,研究者能够首次精确观测到模型在分布外环境下手足关节误差的显著膨胀——手部关节误差在分布外场景中高达分布内水平的7.2倍,手臂关节误差高达5.5倍。这一发现系统地揭示了模型在训练过程中对特定场景和操作手的记忆化倾向,而非学会通用的抓取策略。数据集也因此成为揭示右侧操作场景多样性不足导致泛化不对称性的重要证据,推动学术界重新审视数据采集策略与早停机制在模型训练中的关键作用。
衍生相关工作
围绕该评估数据集,衍生出了一系列推动机器人学习领域深入发展的经典工作。其中最为核心的是对分布外探针机制的研究,研究者明确提出应将此类保留测试集作为内循环早停信号直接接入训练流程,从而彻底改变以往仅在分布内损失曲线指导下盲目训练的做法。此外,基于该数据集揭示的左右手泛化不对称现象,后续工作系统性地探讨了场景多样性——如物体姿态、光照变化、干扰物丰富度——相较于原始回合计数对模型泛化能力的更显著影响。这些见解直接启发了基于注意力机制的多视角融合模型与自适应采样策略的设计,为人形机器人从实验室示范走向非结构化环境中的鲁棒操作奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



