five

Physical Human-Humanoid Data (PH2D)|人形机器人数据集|机器人学习数据集

收藏
arXiv2025-03-18 更新2025-03-19 收录
人形机器人
机器人学习
下载链接:
https://human-as-robot.github.io
下载链接
链接失效反馈
资源简介:
PH2D数据集是一个大规模的任务导向型 egocentric 人类-人形机器人数据集,由加州大学圣地亚哥分校等机构收集。该数据集包含26824个任务导向的人类演示,采用消费者级VR设备收集,提供了准确的3D手部关键点姿态和语言注释。数据集覆盖了多种操作任务、不同的物体和容器,旨在通过模仿人类行为来学习人形机器人的操作策略,促进跨模态学习并提高机器人政策的泛化能力和鲁棒性。
提供机构:
加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院
创建时间:
2025-03-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
PH2D数据集的构建采用了消费级VR设备,通过捕捉人类操作者的自我中心视角视频,并结合自动化的手部及手指3D姿态估计技术。数据收集过程中,操作者需执行与机器人操作任务相关的动作,如抓取和倾倒等,同时提供语言指令以确保任务导向性。为了减少人类与机器人之间的动作差异,操作者在数据收集时被要求保持坐姿,并将物体放置在手臂可及范围内,以模拟商业人形机器人的工作空间。此外,数据集还通过VR设备进行小规模的人形机器人数据收集,以实现更好的对齐。
特点
PH2D数据集的特点在于其任务导向性和大规模性。该数据集包含了超过26,000个人类演示和1,500个机器人演示,涵盖了多种操作任务、多样化的物体和容器,并配备了精确的3D手部及手指姿态数据以及语言注释。与现有的人类日常行为数据集相比,PH2D专注于任务导向的演示,使其能够直接用于机器人策略的联合训练。此外,数据集的多样性体现在其涵盖了不同的背景、物体类型和位置,从而为跨任务和跨平台的泛化提供了丰富的训练数据。
使用方法
PH2D数据集的使用方法主要围绕跨具身学习展开。通过将人类和人形机器人视为不同的具身形式,研究者可以训练一个统一的策略模型,如人类动作变换器(HAT)。HAT模型在人类中心的状态-动作空间中预测未来的手部及手指轨迹,并通过逆运动学和手部重定向将人类动作转换为机器人动作。这种转换过程是可微分的,允许在不同具身形式上进行端到端训练。通过结合小规模的机器人数据,HAT模型能够在无需额外监督的情况下,直接建模人类和人形机器人的行为,从而提升策略的泛化能力和鲁棒性。
背景与挑战
背景概述
Physical Human-Humanoid Data (PH2D) 数据集由加州大学圣地亚哥分校、卡内基梅隆大学、华盛顿大学和麻省理工学院的研究团队于2025年创建,旨在通过人类自我中心视角的演示数据来训练人形机器人的操作策略。该数据集的核心研究问题是如何利用人类的行为数据来弥合人类与人形机器人之间的“具身差距”,从而提升机器人在跨任务和跨平台上的泛化能力。PH2D 数据集包含大量任务导向的人类演示数据,并通过消费级VR设备自动捕捉手部和手腕的3D姿态。这一数据集的推出为人形机器人操作策略的学习提供了新的数据源,显著提升了数据收集的效率和规模。
当前挑战
PH2D 数据集面临的挑战主要体现在两个方面。首先,在领域问题上,尽管人类演示数据为机器人策略学习提供了丰富的训练样本,但人类与人形机器人在动作执行速度、身体结构和控制方式上存在显著差异,这导致直接利用人类数据进行机器人训练时存在“具身差距”。其次,在数据构建过程中,如何确保人类演示数据的任务导向性、如何通过消费级设备精确捕捉手部和手腕的3D姿态,以及如何减少人类演示中的全身运动对机器人策略学习的负面影响,都是构建过程中需要克服的技术难题。此外,数据集的多样性和规模也对数据收集和标注提出了更高的要求。
常用场景
经典使用场景
PH2D数据集的核心应用场景在于跨具身学习(Cross-Embodiment Learning),特别是在人形机器人(Humanoid Robot)的操控策略训练中。通过收集大规模的以自我为中心(Egocentric)的人类任务演示数据,PH2D为机器人提供了丰富的跨具身训练样本。这些数据通过统一的动作空间建模,使得机器人能够直接从人类行为中学习,而无需依赖昂贵的机器人演示数据。这种跨具身学习的范式显著提升了机器人策略的泛化能力和鲁棒性,尤其是在面对未见过的任务和环境时。
衍生相关工作
PH2D数据集衍生了一系列经典的研究工作,特别是在跨具身学习和机器人操控策略领域。例如,基于PH2D的Human Action Transformer (HAT)模型,通过统一的动作空间建模,实现了人类与机器人行为的无缝转换。此外,PH2D还启发了其他研究团队探索如何利用人类数据来提升机器人策略的泛化能力,如EgoMimic和DexCap等研究。这些工作进一步推动了跨具身学习的发展,并为机器人学习提供了新的数据源和方法论支持。
数据集最近研究
最新研究方向
近年来,Physical Human-Humanoid Data (PH2D) 数据集在机器人学习领域引起了广泛关注,尤其是在跨具身学习(cross-embodiment learning)方面。PH2D 数据集通过结合大规模的人类自我中心视角(egocentric vision)数据与小型机器人演示数据,提出了一种新的跨具身行为策略——Human Action Transformer (HAT)。该策略通过统一人类和人形机器人的状态-动作空间,实现了从人类行为到机器人行为的直接映射,显著提升了机器人策略的泛化能力和鲁棒性。PH2D 数据集的创新之处在于其利用消费级VR设备捕捉精确的手部和手腕3D姿态,并通过任务导向的演示数据,解决了传统机器人数据收集的高成本和低效率问题。这一研究方向不仅推动了机器人模仿学习的进步,还为未来大规模跨具身学习提供了新的数据来源和方法论支持。
相关研究论文
  • 1
    Humanoid Policy ~ Human Policy加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

FEVER

FEVER(Fact Extraction and VERification)数据集是一个用于事实验证任务的数据集,包含超过185,000个标注的声明,这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。

fever.ai 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录