HuMo100M

Name: HuMo100M
Creator: 中国科学院自动化研究所, 中国科学院大学, 北京人工智能研究院, 北京大学, 人民大学, 东南大学, BeingBeyond
Published: 2025-08-11 19:26:10
License: 暂无描述

arXiv2025-08-11 更新2025-08-13 收录

下载链接：

https://beingbeyond.github.io/Being-M0.5

下载链接

链接失效反馈

官方服务：

资源简介：

HuMo100M数据集是目前最大且最全面的人类运动数据集，包含超过500万个自收集的运动序列、1亿个多任务指令实例，以及详细的身体部位级标注，填补了现有数据集的空白。数据集通过创新的运动连接方法生成长期运动序列，并利用视觉线索作为特别有益于网络收集运动的弱监督，允许VLMM通过视觉-文本上下文对齐进行学习。HuMo100M的创建过程充分考虑了数据集的可靠性和多样性，旨在为人类运动生成技术的研究和应用提供有力支持。

The HuMo100M dataset is currently the largest and most comprehensive human motion dataset to date. It comprises over 5 million self-collected motion sequences, 100 million multi-task instruction instances, and detailed body-part-level annotations, filling the gaps in existing datasets. The dataset generates long-term motion sequences through innovative motion connection methodologies, and employs visual cues as weak supervision that is particularly beneficial for web-collected motion data, enabling VLMMs to learn via vision-text context alignment. The construction of HuMo100M fully considers the dataset's reliability and diversity, aiming to provide robust support for research and applications of human motion generation technologies.

提供机构：

中国科学院自动化研究所, 中国科学院大学, 北京人工智能研究院, 北京大学, 人民大学, 东南大学, BeingBeyond

创建时间：

2025-08-11

原始信息汇总

数据集概述：Being-M0.5

基本信息

数据集名称: Being-M0.5
相关论文: A Real-Time Controllable Vision-Language-Motion Model (ICCV 2025)
作者: Bin Cao, Sipeng Zheng, Ye Wang, Lujie Xia, Qianshan Wei, Qin Jin, Jing Liu, Zongqing Lu
机构: 中国科学院自动化研究所、北京大学、中国人民大学等
代码: arXiv Code

数据集特点

基础数据: 基于百万级数据集HuMo100M
规模: 包含超过500万自收集动作和1亿多任务指令实例
标注: 提供详细的部位级描述
创新点: 提出部位感知残差量化技术用于动作标记化

技术细节

模型架构:
- 基于7B参数的LLM主干
- 使用SigLIP+2MLP进行视觉编码和投影
- 采用慢-快策略和部位感知残差量化
控制能力:
- 支持随机指令、初始姿势、长期生成
- 处理未见动作和部位感知动作控制

实验验证

测试基准:
- HumanML3D
- I2M任务（使用HuMo-I2M测试床）
- I2PM任务（使用HuMo-I2PM测试床）
性能: 在九个不同基准测试中达到state-of-the-art
推理速度: 提供多种GPU的推理速度数据

示例应用

Instruct-to-PartMotion可视化结果
Instruct-to-LongMotion可视化结果

相关引用

bibtex @inproceedings{cao2025real, title={A Real-Time Controllable Vision-Language-Motion Model}, author={Cao, Bin and Zheng, Sipeng and Wang, Ye and Xia, Lujie and Wei, Qianshan and Jin, Qin and Liu, Jing and Lu, Zongqing}, booktitle={ICCV}, year={2025} }

@inproceedings{wang2025scaling, title={Scaling Large Motion Models with Million-Level Human Motions}, author={Wang, Ye and Zheng, Sipeng and Cao, Bin and Wei, Qianshan and Zeng, Weishuai and Jin, Qin and Lu, Zongqing}, booktitle={ICML}, year={2025} }

搜集汇总

数据集介绍

构建方式

HuMo100M数据集的构建采用了多阶段过滤和处理流程，从超过2000万公开视频中提取高质量人体运动序列。通过YOLO跟踪算法确保时空一致性，结合SMPL参数回归和强化学习策略优化运动质量。数据集创新性地引入三种关键元素：1) 提供肢体级细粒度描述的部件级标注；2) 通过运动插值和基于学习的拼接方法生成长时程序列；3) 包含与文本对齐的视觉片段，形成多模态监督信号。这种构建方式突破了传统运动数据集在时间长度和语义粒度上的局限。

特点

作为当前最大规模的多模态人体运动数据集，HuMo100M包含500万运动序列和1亿条多任务指令实例。其核心特征体现在三方面：首先，创新的五级解剖结构划分（左/右手、左/右腿、躯干）支持精确的部件级运动控制；其次，通过独创的运动拼接技术生成长达千帧的连续序列，比现有数据集平均时长提升15倍；最后，融合视觉-文本-运动三重对齐，在文本描述中同时包含整体动作、部件运动规则和空间关系三个语义层级，为模型提供丰富的监督信号。

使用方法

该数据集支持端到端的视觉-语言-运动多模态训练范式。研究者可通过分层采样策略加载不同粒度的标注：整体动作描述用于基础文本到运动生成，部件级标注实现精细控制，规则描述增强空间关系理解。对于长序列生成任务，建议采用两阶段训练策略，先使用原始短序列学习基本动作模式，再通过拼接序列建模时序依赖性。数据集内置的视觉片段可作为弱监督信号，通过跨模态对比学习提升模型在低质量运动数据下的鲁棒性。

背景与挑战

背景概述

HuMo100M是由BeingBeyond团队于2025年发布的大规模多模态人体运动数据集，作为构建实时可控视觉-语言-运动模型（VLMM）Being-M0.5的核心基础。该数据集包含500万自采集运动序列和1亿多任务指令实例，创新性地提供了肢体级标注、长时序运动拼接和文本对齐视觉片段三大特性。其研究团队整合了来自CASIA、PKU、RUC等顶尖机构的学者，旨在突破现有运动生成模型在可控性方面的五大瓶颈：多样化指令响应、随机姿态初始化、长序列生成、未知场景处理和精细肢体控制。该数据集通过解剖学意义的运动量化编码和层级化文本标注，显著推动了动作生成技术在影视制作、人机交互等领域的实用化进程。

当前挑战

HuMo100M面临的挑战主要体现在领域问题和技术构建两个维度。在领域层面，需解决传统运动生成模型对自然语言指令理解不足、肢体独立控制精度低（如单独控制左臂动作）、长序列运动时空一致性差等核心问题。技术构建上，数据集面临三大挑战：1)从网络视频提取运动数据时需克服遮挡模糊带来的质量波动，通过WHAM算法和RL策略提升3D运动估计精度；2)肢体级标注需平衡解剖学分组与整体运动协调性，采用共享关节特征平均策略维持运动学合理性；3)长序列生成依赖创新的运动插值拼接技术，需保证不同动作片段间的物理合理过渡。此外，多模态对齐中视觉线索与运动数据的弱监督匹配也是关键难点。

常用场景

经典使用场景

HuMo100M数据集在计算机视觉与人工智能领域具有广泛的应用价值，尤其在人体运动生成任务中表现突出。该数据集通过整合超过500万条运动序列和1亿条多任务指令实例，为研究者提供了丰富的训练资源。其最经典的使用场景包括基于文本描述的人体运动生成，例如根据自然语言指令生成相应的动作序列。这一功能在虚拟现实、游戏角色动画和影视特效制作等领域具有重要应用价值，能够显著提升动作设计的效率与自然度。

衍生相关工作

该数据集已催生了一系列创新性研究工作。最具代表性的是Being-M0.5模型，其提出的部位感知残差量化(PRQ)技术开创了细粒度运动控制的新范式。相关衍生工作包括MotionGPT系列的语言引导运动生成框架、MoMask的掩码建模运动预测方法，以及LMM构建的多模态运动理解系统。这些工作共同推动了从文本到运动(T2M)、指令到运动(I2M)等任务的技术边界，形成了完整的运动生成技术生态。

数据集最近研究