OmniHuMo

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/L-yiheng/OmniHuMo

下载链接

链接失效反馈

官方服务：

资源简介：

OmniHuMo 是一个大规模、高质量的人体运动捕捉数据集，专门针对人形机器人和人体运动生成研究。该数据集完全从互联网视频中采集，包含超过 320 万条运动序列，总时长超过 5000 小时，数据规模超过 1TB。数据集内容可能涵盖多模态信息，包括核心的运动数据（omnihumo_v0）、原始音频（audio）以及从音频中提取的特征（audio_feat），并提供了预先划分的数据集分割文件（split）。该数据集适用于机器人学、计算机视觉和人工智能领域的任务，特别是大规模人形运动建模、任意模态条件下的运动生成（如基于音频或文本生成动作）以及基于掩码建模技术的运动预测与合成研究。数据集采用 CC BY-NC-SA 4.0 许可协议，仅供非商业研究使用。

OmniHuMo is a large-scale, high-quality human motion capture dataset specifically designed for humanoid robotics and human motion generation research. The dataset is entirely collected from internet videos, containing over 3.2 million motion sequences, with a total duration exceeding 5,000 hours and a data size of over 1TB. The dataset content may include multimodal information, such as core motion data (omnihumo_v0), raw audio (audio), and features extracted from audio (audio_feat), and provides pre-divided dataset split files (split). It is suitable for tasks in robotics, computer vision, and artificial intelligence, particularly for large-scale humanoid motion modeling, motion generation under arbitrary modal conditions (e.g., generating actions based on audio or text), and research on motion prediction and synthesis using masked modeling techniques. The dataset is licensed under CC BY-NC-SA 4.0 and is intended for non-commercial research use only.

创建时间：

2026-05-27

原始信息汇总

数据集名称：OmniHuMo

数据集概览

规模：包含超过 320万 个高质量动作捕捉序列，总时长超过 5,000小时。
数据来源：完全从互联网视频中提取。
语言：英语（en）。
任务类别：通用（other）、机器人（robotics）。
标签：大型人体运动、人形机器人、人形机器人运动。

数据集内容与结构

数据文件：
- 运动数据：omnihumo_v0.tar.gz（分卷压缩，共6个部分，文件名后缀part_aa至part_af）。
- 音频数据：audio.tar.gz（分卷压缩，共60个部分，文件名后缀part_aa至part_bh）。
- 音频特征：audio_feat.tar.gz（分卷压缩，共8个部分，文件名后缀part_aa至part_ah）。
- 数据拆分：split.tar.gz（单文件）。
文件结构：
- 根目录包含：README.md、assets文件夹、所有压缩分卷文件、process_code文件夹、split.tar.gz、upload.py。

数据获取与使用

克隆仓库： bash git lfs install git clone https://huggingface.co/datasets/L-yiheng/OmniHuMo

若要跳过大型文件（仅下载指针），使用： bash GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/L-yiheng/OmniHuMo
解压数据：使用以下命令解压各分卷压缩包： bash cat ./audio_feat.tar.gz.part_* | pigz -d -p 64 | tar -xvf - cat ./audio.tar.gz.part_* | pigz -d -p 64 | tar -xvf - cat ./omnihumo_v0.tar.gz.part_* | pigz -d -p 64 | tar -xvf - tar -xzf split.tar.gz

许可协议

许可类型：CC BY-NC-SA 4.0（知识共享-署名-非商业性使用-相同方式共享 4.0 国际许可协议）。
社区许可协议：访问该数据集需要同意“OmniHuMo 社区许可协议”，并在申请时提供以下信息：
- 姓名（First Name / Last Name）
- 电子邮箱
- 国家
- 所属机构
- 电话号码
- 工作职位（学生、研究毕业生、AI研究员、AI开发者/工程师、记者、其他）
- 研究兴趣

引用

若该数据集对研究有帮助，请引用以下论文： text @misc{li2026anymoscalinganymodalityconditional, title={AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling}, author={Yiheng Li and Zhuo Li and Ruibing Hou and Yingjie Chen and Hong Chang and Hao Liu and Shiguang Shan}, year={2026}, eprint={2605.29488}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2605.29488}, }

搜集汇总

数据集介绍

构建方式

OmniHuMo数据集的构建源于对互联网视频中海量人体运动数据的深度挖掘与自动化处理。研究团队通过先进的姿态估计算法，从海量网络视频中提取出超过320万条高质量人体运动捕捉序列，涵盖5000小时以上的运动时长。数据经过严格的质量筛选与清洗流程，最终形成了包含运动数据、音频信号及其对应特征在内的多模态数据集，并按照CC BY-NC-SA 4.0许可协议发布。

使用方法

用户可通过Git LFS工具克隆数据集仓库，并根据需要选择完整下载或仅获取指针文件以节约存储空间。数据以分卷压缩包的形式组织，包含运动主文件（omnihumo_v0）、音频数据（audio）及预提取的音频特征（audio_feat），利用pigz多线程解压工具即可高效完成数据解压。数据集还提供了拆分文件（split.tar.gz）与示例处理代码，便于研究者进行训练-验证-测试集的划分与自定义处理流程的构建。

背景与挑战

背景概述

OmniHuMo数据集由Li Yiheng等研究人员于2026年创建，旨在应对人形机器人运动生成领域对大规模、高质量运动捕捉数据的迫切需求。该数据集从互联网视频中提取，包含超过320万条高质量运动捕捉序列，累计时长逾5000小时，覆盖了丰富多样的人体运动模式。其核心研究问题在于，如何通过大规模数据驱动的方法，推动人形机器人运动建模与生成技术的突破。OmniHuMo的发布为基于条件生成模型（如AnyMo框架）的研究提供了前所未有的数据基础，极大地促进了人形机器人运动领域的算法创新与能力边界拓展。

当前挑战

该数据集主要面临两大挑战。其一，在领域问题层面，人形机器人运动生成需解决从真实人体运动数据到机器人可执行策略的迁移难题，包括运动风格多样性、物理可行性约束以及多模态条件（如音频、文本）的精确对齐，OmniHuMo通过海量数据为这些复杂映射学习提供了可能。其二，在数据构建过程中，从海量互联网视频中自动提取高质量、无污染的3D运动序列面临技术挑战，涉及视频到关键点的精确估计、跨视角一致性维护、以及大量数据的清洗与标注，最终实现了超过3.2万小时的可靠捕获数据，其规模与质量在同类数据集中处于领先水平。

常用场景

经典使用场景

OmniHuMo作为迄今为止规模最为宏大的互联网视频来源人体运动捕捉数据集，涵盖了超过320万条高质量运动序列与5000小时的丰富时程，其经典使用场景集中于推动人形机器人全身运动控制与规划的研究。研究者可借助该数据集的大规模多样运动数据，训练具备泛化能力的运动生成模型，实现对行走、奔跑、跳跃等基础动作以及复杂交互动作的高精度重建与合成。此外，OmniHuMo中同步提供的音频特征使多模态运动学习成为可能，为从声音或环境信号中解耦并驱动物理仿真体提供了宝贵的训练素材，是连接虚拟运动模仿与实体机器人部署的关键桥梁。

解决学术问题

在学术研究中，OmniHuMo重点解决了长久以来困扰人体运动建模领域的数据匮乏与多样性不足问题。传统运动数据库受限于采集环境与成本，难以覆盖现实世界中人类运动的丰沛变体，导致模型在域外场景下的泛化性能薄弱。OmniHuMo通过从海量互联网视频中自动提取并清洗运动序列，大幅降低了运动数据的获取与标注门槛，使研究者能够系统性地探索运动先验的学习机制、时序连贯性建模以及跨模态对齐等核心课题。该数据集的问世，为构建高保真、可交互的数字人以及实现从有限观测到完整运动轨迹的推断提供了坚实的数据基础，显著推动了计算机视觉与机器人学交叉领域的发展前沿。

实际应用

在现实应用层面，OmniHuMo所支撑的运动生成技术已展现出广泛而深远的潜力。人形机器人在工业巡检、灾难救援与家庭服务等场景中，亟需模仿人类流畅自然的运动能力，OmniHuMo提供的海量参考动作库使得机器人能够在仿真环境中快速习得丰富的运动技能，进而缩短从虚拟训练到实体部署的迁移周期。与此同时，该数据集还可赋能影视与游戏行业中的角色动画制作，通过运动检索与条件生成，辅助创作者高效生成逼真的人物动作序列，降低传统手工调参或昂贵动捕设备的依赖。在体育分析与康复医疗领域，OmniHuMo亦可作为基准数据库，用于评估运动员动作规范性或辅助制定个性化的运动康复方案，彰显了其在跨行业技术赋能中的广阔前景。

数据集最近研究