PHUMA
收藏arXiv2025-10-30 更新2025-11-04 收录
下载链接:
https://hf-mirror.com/datasets/DAVIAN-Robotics/PHUMA
下载链接
链接失效反馈官方服务:
资源简介:
PHUMA是一个大规模的人形机器人运动数据集,它通过仔细的数据整理和基于物理的重新定位,解决了现有数据集中常见的物理问题,如漂浮、穿透和脚滑。PHUMA数据集包含来自各种来源的76000个运动剪辑,共计73小时,涵盖了广泛的运动类型,如跑步、跳跃和蹲下。该数据集通过物理感知的整理过程和物理约束的重新定位方法构建,以确保运动的物理可行性和可靠性。PHUMA旨在推动人形机器人运动模仿的研究,以实现稳定和类似人类的运动。
PHUMA is a large-scale humanoid robot motion dataset. It addresses prevalent physical anomalies—such as floating limbs, spatial penetration, and foot slippage—that frequently occur in existing datasets, via rigorous data curation and physics-based retargeting. The PHUMA dataset contains 76,000 motion clips from diverse sources, totaling 73 hours of content, and covers a wide spectrum of motion types including running, jumping, and squatting. Built through a physics-aware curation pipeline and physics-constrained retargeting method, the dataset ensures the physical feasibility and reliability of all included motions. PHUMA is designed to advance research on humanoid robot motion imitation, with the objective of achieving stable and human-like robotic movements.
提供机构:
韩国科学技术院(KAIST)
创建时间:
2025-10-30
搜集汇总
数据集介绍

构建方式
在人形机器人运动模仿研究领域,PHUMA数据集通过两阶段构建流程实现了物理可靠性与规模化的平衡。该流程首先对Humanoid-X原始数据进行物理感知筛选,采用低通巴特沃斯滤波器消除高频抖动,通过质心距离分析和足部接触评分机制,移除了约70%存在浮动、穿透或关节违规的无效运动片段。随后应用物理约束的形状自适应逆运动学方法,在保持运动保真度的同时强制执行关节限位、地面接触和防滑动约束,最终形成包含73小时、7.6万片段的标准化数据集。
特点
PHUMA数据集的核心特征体现在其物理合理性与运动多样性的深度融合。相较于传统运动捕捉数据集,该数据集通过物理约束优化显著降低了四种典型运动伪影:关节角度违规发生率控制在1%以内,地面浮动与穿透现象改善至97%以上的合规率,足部滑动问题减少至89.7%的抑制水平。在运动分布方面,数据集覆盖站立、行走、奔跑等11种基础运动模式,并包含跳跃、深蹲等动态动作,其运动类型均衡度较AMASS提升349.9%,在保持大规模数据优势的同时实现了物理可靠性的质的飞跃。
使用方法
该数据集适用于基于强化学习的运动模仿框架,可通过MaskedMimic等标准流程进行模型训练。在实际应用中,用户首先加载经过物理校正的运动片段作为参考轨迹,通过PPO算法优化策略网络以最小化目标运动与生成动作的差异。训练过程支持全状态跟踪和骨盆路径跟踪两种模式:前者利用完整的关节状态信息实现精确运动复现,后者通过知识蒸馏技术将教师策略的全状态控制能力迁移至仅依赖骨盆轨迹的学生策略。评估阶段可采用0.15米严格阈值衡量运动跟踪精度,确保生成动作在Unitree G1/H1-2等人形机器人平台上的实际部署效果。
背景与挑战
背景概述
PHUMA数据集由KAIST研究团队于2025年提出,旨在解决人形机器人运动模仿领域的数据瓶颈问题。该数据集针对现有高质量运动捕捉数据集如AMASS规模有限、成本高昂的局限,以及基于互联网视频的大规模数据集Humanoid-X存在的物理失真缺陷,通过精心设计的数据筛选流程和物理约束重定向方法,构建了兼具规模性与物理可靠性的运动数据集。PHUMA通过整合动作捕捉数据与视频重建数据,显著提升了人形机器人学习人类运动的质量与多样性,为人形机器人实现类人运动控制提供了关键数据支撑。
当前挑战
该数据集主要应对运动模仿领域两大核心挑战:在领域问题层面,需解决视频驱动方法产生的物理失真现象,包括关节越界、身体漂浮、地面穿透和足部滑动等运动伪影;在构建过程层面,面临大规模视频数据中运动抖动、未建模物体交互、足地接触关系错乱等数据质量问题。PHUMA通过物理感知的数据筛选机制和物理约束的形状自适应逆运动学方法,有效消除了这些物理违规现象,确保了运动数据的物理合理性与实用性。
常用场景
经典使用场景
在仿人机器人运动模仿研究领域,PHUMA数据集作为高质量训练基准发挥着关键作用。该数据集通过物理约束的逆向运动学方法,将大规模人类视频数据转化为符合物理规律的运动轨迹,为机器人学习人类步态提供了丰富的训练样本。研究人员利用PHUMA训练强化学习策略,使仿人机器人能够精确复现行走、奔跑、蹲起等复杂动作,显著提升了运动模仿的自然度和稳定性。
实际应用
在现实场景中,PHUMA数据集为仿人机器人的实际部署提供了重要支撑。基于该数据集训练的控制器已成功应用于Unitree G1和H1-2等仿人机器人平台,实现了在复杂地形下的稳定行走和动态动作执行。特别是在仅依赖骨盆轨迹跟踪的简化控制模式下,PHUMA训练的策略展现出卓越的路径跟随能力,为服务机器人、工业巡检等应用场景提供了可靠的运动控制方案。
衍生相关工作
PHUMA数据集催生了多项创新性研究工作,其中最具代表性的是物理约束形状自适应逆向运动学方法。该方法通过联合可行性损失、接地约束损失和防滑动损失的协同优化,建立了运动保真度与物理合理性之间的平衡机制。相关研究进一步拓展了基于视觉的全身控制框架,推动了从仿真到实物的技术迁移,为仿人机器人在非结构化环境中的自主运动奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



