five

human2locoman

收藏
Hugging Face2025-07-22 更新2025-07-23 收录
下载链接:
https://huggingface.co/datasets/cmu-safe-ai/human2locoman
下载链接
链接失效反馈
官方服务:
资源简介:
Human2LocoMan是一个用于机器人学任务的数据集,专注于学习四足机器人多功能的操作技能,通过人类预训练来实现。该数据集适用于机器人操作的学习和研究。

Human2LocoMan is a robotics-oriented dataset dedicated to learning versatile manipulation skills for quadruped robots via human pretraining. This dataset is suitable for the learning and research of robotic manipulation.
创建时间:
2025-07-20
原始信息汇总

数据集概述

基本信息

  • 名称: Human2LocoMan
  • 许可证: MIT
  • 任务类别: 机器人学 (Robotics)
  • 语言: 英语 (en)
  • 标签: Human, Pretraining, Manipulation

数据集描述

  • 内容: 包含人类和LocoMan机器人在六种操作任务中的数据。
  • 任务类型:
    • 单臂玩具收集 (Unimanual toy collection)
    • 双臂玩具收集 (Bimanual toy collection)
    • 单臂鞋子整理 (Unimanual shoe organization)
    • 双臂鞋子整理 (Bimanual shoe organization)
    • 单臂舀取 (Unimanual scooping)
    • 双臂倾倒 (Bimanual pouring)

数据结构

  • 格式: HDF5文件
  • 视频文件: 提供MP4视频文件作为参考
  • 数据组织:
    • observations:
      • images:
        • main: 主摄像头图像 [h * w * c] * traj_length
        • wrist: 手腕摄像头图像 (最多两个,右侧优先) [h * w * c] * traj_length
      • proprioceptions:
        • body: 主摄像头安装的刚体的6D姿态 [6] * traj_length
        • eef: 末端执行器的6D姿态 (最多两个,右侧优先) [12] * traj_length
        • relative: 末端执行器相对于主摄像头安装刚体的6D姿态 (最多两个,右侧优先) [12] * traj_length
        • gripper: 夹持器角度 (最多两个,右侧优先) [2] * traj_length
        • other: 其他本体感知状态 (如机器人关节位置、速度、人手关节姿态等)
    • actions:
      • body: 主摄像头安装的刚体的6D姿态 [6] * traj_length
      • delta_body: 主摄像头安装的刚体的6D姿态变化量 [6] * traj_length
      • eef: 末端执行器的6D姿态 (最多两个,右侧优先) [12] * traj_length
      • delta_eef: 末端执行器的6D姿态变化量 (最多两个,右侧优先) [12] * traj_length
      • gripper: 夹持器角度 (最多两个,右侧优先) [2] * traj_length
      • delta_gripper: 夹持器角度变化量 (最多两个,右侧优先) [2] * traj_length
    • masks:
      • 用于训练和推理的特定体现掩码 (观察和动作的掩码可能不同)
      • 包含对图像输入、本体感知输入和动作输出的掩码

引用信息

bibtex @inproceedings{niu2025human2locoman, title={Human2LocoMan: Learning Versatile Quadrupedal Manipulation with Human Pretraining}, author={Niu, Yaru and Zhang, Yunzhe and Yu, Mingyang and Lin, Changyi and Li, Chenhao and Wang, Yikai and Yang, Yuxiang and Yu, Wenhao and Zhang, Tingnan and Li, Zhenzhen and Francis, Jonathan and Chen, Bingqing and Tan, Jie and Zhao, Ding}, booktitle={Robotics: Science and Systems (RSS)}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在机器人学领域,Human2LocoMan数据集通过精心设计的实验范式构建,涵盖了六种关键操作任务的数据采集。该数据集采用统一的HDF5文件格式存储人类和四足机器人的操作数据,包含多视角视觉信息(主摄像头和腕部摄像头)、本体感知数据(末端执行器位姿、夹持器角度等)以及动作指令数据。数据采集过程中特别设计了任务掩码机制,为不同模态的观测和动作提供精确的过滤标识,确保数据结构的规范性和兼容性。
特点
该数据集最显著的特征在于其跨模态的数据整合能力,同时包含人类示范和机器人执行数据。通过多传感器融合,提供了丰富的视觉-本体感知对齐信息,其中主摄像头和腕部摄像头的图像序列与6D位姿数据严格同步。数据集特别设计了双任务体系(单臂与双臂操作),覆盖玩具收集、鞋子整理、舀取和倾倒等多样化操作场景,为研究人类到机器人的技能迁移提供了理想的基准平台。
使用方法
研究者可通过加载HDF5文件直接访问结构化数据,利用预定义的数据掩码筛选特定模态信息。数据集支持端到端的模仿学习框架构建,其中观测数据可作为模型输入,动作数据作为监督信号。对于跨模态研究,可结合视觉流和本体感知流进行多任务学习。建议参考提供的MP4视频文件辅助理解任务场景,并通过论文描述的预训练方法实现人类数据到机器人控制的迁移学习。
背景与挑战
背景概述
Human2LocoMan数据集由卡内基梅隆大学、Google DeepMind及博世人工智能中心联合研发,旨在推动四足机器人操控技术的进步。该数据集于2025年正式发布,核心研究问题聚焦于如何通过人类示范数据预训练提升四足机器人在复杂操作任务中的泛化能力。数据集收录了六类典型操作任务的双模态数据,包括单/双手玩具收集、鞋具整理及物料舀取等场景,为机器人模仿学习与跨模态迁移研究提供了重要基准。其创新性地统一了人类与机器人数据格式,对促进具身智能与机器人操作研究的交叉融合具有显著影响。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决从高自由度人类动作到受限机器人执行的映射难题,特别是处理视觉-动作协同中的语义鸿沟问题;在构建过程中,多模态数据同步采集涉及异构传感器的时间校准,而人类与机器人动作空间的固有差异则要求设计特殊的掩码机制来统一数据表征。此外,确保操作任务场景的多样性与数据标注的物理精确性,对构建真实有效的跨模态学习基准提出了严峻考验。
常用场景
经典使用场景
在机器人操控领域,Human2LocoMan数据集为研究四足机器人的多功能操控提供了丰富的实验数据。该数据集通过统一的人类与机器人数据格式,支持从人类行为到机器人行为的迁移学习研究。经典使用场景包括单臂和双臂玩具收集、鞋子整理、舀取和倾倒等任务,这些任务模拟了日常生活中的复杂操作场景,为机器人操控算法的开发和验证提供了标准化测试平台。
解决学术问题
Human2LocoMan数据集有效解决了机器人操控中的跨模态迁移学习问题。通过提供人类和机器人在相同任务下的行为数据,该数据集为研究人类行为模式如何迁移至机器人操控提供了关键支持。其意义在于弥合了人类行为数据与机器人控制之间的鸿沟,为开发更具适应性和通用性的机器人操控算法奠定了数据基础,推动了机器人操控领域的理论突破。
衍生相关工作
围绕Human2LocoMan数据集已衍生出多项重要研究工作,特别是在机器人模仿学习和跨模态迁移领域。基于该数据集,研究者们开发了新型的预训练框架和行为克隆算法,这些工作显著提升了四足机器人在复杂操作任务中的表现。数据集还促进了机器人视觉-运动协同控制等方向的研究进展,为后续相关研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作