Physical Human-Humanoid Data (PH2D)

Name: Physical Human-Humanoid Data (PH2D)
Creator: 加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院
Published: 2025-03-18 01:59:09
License: 暂无描述

arXiv2025-03-18 更新2025-03-19 收录

下载链接：

https://human-as-robot.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

PH2D数据集是一个大规模的任务导向型 egocentric 人类-人形机器人数据集，由加州大学圣地亚哥分校等机构收集。该数据集包含26824个任务导向的人类演示，采用消费者级VR设备收集，提供了准确的3D手部关键点姿态和语言注释。数据集覆盖了多种操作任务、不同的物体和容器，旨在通过模仿人类行为来学习人形机器人的操作策略，促进跨模态学习并提高机器人政策的泛化能力和鲁棒性。

The PH2D Dataset is a large-scale task-oriented egocentric human-humanoid robot dataset collected by the University of California, San Diego and other institutions. It contains 26,824 task-oriented human demonstrations collected via consumer-grade VR devices, and provides accurate 3D hand keypoint poses and linguistic annotations. The dataset covers a variety of manipulation tasks, diverse objects and containers, and aims to learn manipulation strategies for humanoid robots by imitating human behaviors, promote cross-modal learning, and improve the generalization ability and robustness of robot policies.

提供机构：

加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

PH2D数据集的构建采用了消费级VR设备，通过捕捉人类操作者的自我中心视角视频，并结合自动化的手部及手指3D姿态估计技术。数据收集过程中，操作者需执行与机器人操作任务相关的动作，如抓取和倾倒等，同时提供语言指令以确保任务导向性。为了减少人类与机器人之间的动作差异，操作者在数据收集时被要求保持坐姿，并将物体放置在手臂可及范围内，以模拟商业人形机器人的工作空间。此外，数据集还通过VR设备进行小规模的人形机器人数据收集，以实现更好的对齐。

特点

PH2D数据集的特点在于其任务导向性和大规模性。该数据集包含了超过26,000个人类演示和1,500个机器人演示，涵盖了多种操作任务、多样化的物体和容器，并配备了精确的3D手部及手指姿态数据以及语言注释。与现有的人类日常行为数据集相比，PH2D专注于任务导向的演示，使其能够直接用于机器人策略的联合训练。此外，数据集的多样性体现在其涵盖了不同的背景、物体类型和位置，从而为跨任务和跨平台的泛化提供了丰富的训练数据。

使用方法

PH2D数据集的使用方法主要围绕跨具身学习展开。通过将人类和人形机器人视为不同的具身形式，研究者可以训练一个统一的策略模型，如人类动作变换器（HAT）。HAT模型在人类中心的状态-动作空间中预测未来的手部及手指轨迹，并通过逆运动学和手部重定向将人类动作转换为机器人动作。这种转换过程是可微分的，允许在不同具身形式上进行端到端训练。通过结合小规模的机器人数据，HAT模型能够在无需额外监督的情况下，直接建模人类和人形机器人的行为，从而提升策略的泛化能力和鲁棒性。

背景与挑战

背景概述

Physical Human-Humanoid Data (PH2D) 数据集由加州大学圣地亚哥分校、卡内基梅隆大学、华盛顿大学和麻省理工学院的研究团队于2025年创建，旨在通过人类自我中心视角的演示数据来训练人形机器人的操作策略。该数据集的核心研究问题是如何利用人类的行为数据来弥合人类与人形机器人之间的“具身差距”，从而提升机器人在跨任务和跨平台上的泛化能力。PH2D 数据集包含大量任务导向的人类演示数据，并通过消费级VR设备自动捕捉手部和手腕的3D姿态。这一数据集的推出为人形机器人操作策略的学习提供了新的数据源，显著提升了数据收集的效率和规模。

当前挑战

PH2D 数据集面临的挑战主要体现在两个方面。首先，在领域问题上，尽管人类演示数据为机器人策略学习提供了丰富的训练样本，但人类与人形机器人在动作执行速度、身体结构和控制方式上存在显著差异，这导致直接利用人类数据进行机器人训练时存在“具身差距”。其次，在数据构建过程中，如何确保人类演示数据的任务导向性、如何通过消费级设备精确捕捉手部和手腕的3D姿态，以及如何减少人类演示中的全身运动对机器人策略学习的负面影响，都是构建过程中需要克服的技术难题。此外，数据集的多样性和规模也对数据收集和标注提出了更高的要求。

常用场景

经典使用场景

PH2D数据集的核心应用场景在于跨具身学习（Cross-Embodiment Learning），特别是在人形机器人（Humanoid Robot）的操控策略训练中。通过收集大规模的以自我为中心（Egocentric）的人类任务演示数据，PH2D为机器人提供了丰富的跨具身训练样本。这些数据通过统一的动作空间建模，使得机器人能够直接从人类行为中学习，而无需依赖昂贵的机器人演示数据。这种跨具身学习的范式显著提升了机器人策略的泛化能力和鲁棒性，尤其是在面对未见过的任务和环境时。

衍生相关工作

PH2D数据集衍生了一系列经典的研究工作，特别是在跨具身学习和机器人操控策略领域。例如，基于PH2D的Human Action Transformer (HAT)模型，通过统一的动作空间建模，实现了人类与机器人行为的无缝转换。此外，PH2D还启发了其他研究团队探索如何利用人类数据来提升机器人策略的泛化能力，如EgoMimic和DexCap等研究。这些工作进一步推动了跨具身学习的发展，并为机器人学习提供了新的数据源和方法论支持。

数据集最近研究