PHSD
收藏arXiv2025-11-20 更新2025-11-21 收录
下载链接:
https://xiongyicai.github.io/In-N-On
下载链接
链接失效反馈官方服务:
资源简介:
PHSD是由加州大学圣地亚哥分校构建的大规模物理人形机器人交互数据集,专为具身智能研究设计。该数据集包含超过1000小时的野外环境自我中心视角数据及20小时任务导向数据,涵盖多源人类演示与机器人操作记录,通过统一的人类中心状态动作空间实现多模态对齐。数据集采用苹果Vision Pro和Meta Aria Glass等高精度设备采集,经由逆向运动学软件套件进行标准化处理,主要应用于人形机器人操作策略的预训练与后训练,旨在解决跨形态示教学习中的领域适应与指令泛化难题。
PHSD is a large-scale physical humanoid robot interaction dataset developed by the University of California, San Diego, specifically tailored for embodied intelligence research. This dataset contains over 1,000 hours of egocentric data collected in unconstrained real-world environments and 20 hours of task-oriented data, covering multi-source human demonstrations and robot operation logs, and achieves multimodal alignment through a unified human-centric state-action space. Collected using high-precision devices such as Apple Vision Pro and Meta Aria Glass, the dataset is standardized via an inverse kinematics software suite. It is primarily applied to the pre-training and post-training of humanoid robot manipulation policies, aiming to address the challenges of domain adaptation and instruction generalization in cross-morphology demonstration learning.
提供机构:
加州大学圣地亚哥分校
创建时间:
2025-11-20
原始信息汇总
In-N-On 数据集概述
数据集名称
In-N-On
核心目标
通过将人类自我中心数据分为野外数据和任务数据,实现零样本语言指令跟随、少样本学习和通过针对性任务数据提升鲁棒性
数据集构成
- PHSD数据集:包含超过1,000小时的多样化野外自我中心数据
- 任务数据:包含超过20小时直接与目标操作任务对齐的任务数据
数据采集设备
- H1和G1人形机器人
- Aria眼镜
- Apple Vision Pro设备
关键特性
零样本语言指令跟随
- 支持已见语言指令
- 支持未见语言指令
性能提升
- 改进任务性能
- 1样本学习能力
- 对象泛化能力
技术方法
- 利用PHSD数据集中的大规模自我中心人机数据进行预训练和后训练
- 采用两阶段训练流程:大规模野外人机数据预训练 + 任务对齐演示后训练
- 使用域对抗判别器学习体现不变表示,实现有效的人到机器人迁移
相关资源
搜集汇总
数据集介绍

构建方式
在具身智能研究领域,大规模高质量数据是推动模型泛化能力的关键。PHSD数据集通过整合多源异构的自我中心视角数据,构建了统一的以人为中心的状态动作空间。该数据集汇集了来自EgoDex、ActionNet和PH2D等权威数据源的超过1000小时野外数据,并专门采集了20小时任务导向数据。通过自主研发的逆运动学与手部重定向算法套件,将不同硬件平台采集的关节数据转换为标准化的人体运动表征,有效解决了跨实体数据融合的异构性问题。
特点
该数据集最显著的特征体现在其多模态数据架构与领域自适应设计。所有数据均包含头部姿态、手腕运动轨迹及指尖关键点等完整的生物力学特征,并配以自然语言指令标注。通过引入梯度反转层等域适应技术,模型能够学习跨人类与机器人实体的通用表征,显著提升策略迁移性能。数据集特别设计了任务数据与野外数据的分层结构,既保留了大规模数据的多样性优势,又确保了目标任务的分布对齐,为研究零样本指令跟随和少样本学习提供了理想实验环境。
使用方法
研究者可采用两阶段训练范式充分发挥该数据集价值。预训练阶段利用千小时级野外数据构建基础视觉语言动作模型,通过流匹配目标函数学习人类行为先验。后训练阶段则聚焦任务特定数据,在保持语言理解能力的同时优化目标任务的运动控制精度。实践表明,采用70%人类数据与30%机器人数据的混合采样策略能有效平衡语义保持与任务适配。该数据集配套的开源软件栈支持将训练策略直接部署到多种仿人机器人平台,为具身智能研究提供端到端解决方案。
背景与挑战
背景概述
物理人形机器人数据集(PHSD)由加州大学圣地亚哥分校研究团队于2025年提出,旨在解决人形机器人操作任务中的跨模态学习难题。该数据集整合了超过1000小时的野外人类操作视频与20小时任务导向数据,通过统一的人体中心化状态-动作空间框架,构建了首个大规模人机协同操作基准。其创新性体现在将人类生物力学特性转化为可迁移的机器人控制策略,为人形机器人领域的具身智能研究提供了关键数据支撑。
当前挑战
该数据集面临双重挑战:在领域问题层面,需克服人类与机器人形态差异导致的动作映射失真,以及从非结构化人类视频中提取精确操作语义的困难;在构建过程中,需解决多源异构数据(如EgoDex、ActionNet等)的时间同步难题,并设计可微分运动重定向算法以实现跨硬件平台的动作迁移。此外,数据标注的语义一致性维护与多模态对齐也是关键瓶颈。
常用场景
经典使用场景
在具身智能研究领域,PHSD数据集通过整合超过1000小时的野外人类操作数据与20小时任务导向数据,构建了统一的人类中心化状态-动作空间。该数据集最典型的应用场景是训练基于第一人称视角的视觉-语言-动作模型,通过流匹配算法实现人类行为到人形机器人的跨形态迁移,为具身智能系统提供大规模多模态行为范本。
衍生相关工作
该数据集催生了系列创新研究,例如EgoVLA通过人类视频数据扩展视觉语言动作模型的语义理解能力,DexWild探索了野外环境下的灵巧操作策略。其统一状态空间设计更启发了OpenVLA等开源项目构建跨形态学习框架,推动具身智能社区形成以人类行为为先验的知识迁移范式。
数据集最近研究
最新研究方向
在具身智能与机器人操作领域,PHSD数据集的前沿研究聚焦于利用大规模人类中心化数据推动仿人机器人的泛化能力。该数据集整合了超过1000小时的野外人类操作视频与20小时的任务导向数据,通过统一的状态-动作空间建模与领域自适应技术,有效弥合了人类与机器人间的形态差异。当前研究热点集中在零样本语言指令跟随、少样本学习及任务鲁棒性提升等方面,这些突破为低成本采集人类数据以训练通用操作策略开辟了新路径,对服务机器人、工业自动化等场景的实用化部署具有深远意义。
相关研究论文
- 1In-N-On: Scaling Egocentric Manipulation with in-the-wild and on-task Data加州大学圣地亚哥分校 · 2025年
以上内容由遇见数据集搜集并总结生成



