MotionHub

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/ZeyuLing/MotionHub

下载链接

链接失效反馈

官方服务：

资源简介：

MotionHub是一个大规模、多模态的人体运动数据集集合，旨在为运动生成与理解研究提供统一的标注格式和丰富的监督信号。该数据集整合了八个经过质量审核的公开子集（CombatMotion_seperate, aist, amass_sup, beat_v2.0.0, finedance, fit3d, humansc3d, permo），共包含69,107个运动剪辑，对应超过1,480万帧运动数据，总时长约137.3小时。数据集的核心是人体运动序列（可能采用SMPLX参数化模型表示），并广泛关联了多种模态的标注信息，包括：1) 文本描述：提供宏观、中观和微观三个不同粒度层次共计超过82万条文本提示，支持细粒度的文本-运动对齐；2) 音乐音频：在aist和finedance子集中提供了5,602个音乐-舞蹈配对；3) 语音与脚本：在beat_v2.0.0子集中提供了超过2.1万条语音音频/转录本-手势配对及脚本-手势配对。因此，MotionHub支持多种可训练任务，主要包括：文本到运动生成（823,814个提示）、运动到文本描述（823,814个引用）、音乐到舞蹈生成（5,602对）、语音/音频到手势生成（21,586对）以及脚本到手势生成（21,594个脚本）。数据集采用标准的训练/测试划分，并提供了详细的帧数、时长等元数据。它适用于推动多模态运动生成、跨模态检索、运动语义理解等方向的研究。

MotionHub is a large-scale, multimodal human motion dataset collection designed to provide unified annotation formats and rich supervision signals for motion generation and understanding research. It integrates eight quality-reviewed public subsets (CombatMotion_seperate, aist, amass_sup, beat_v2.0.0, finedance, fit3d, humansc3d, permo), comprising a total of 69,107 motion clips corresponding to over 14.8 million frames of motion data, with a total duration of approximately 137.3 hours. The core of the dataset is human motion sequences (possibly represented using the SMPLX parametric model), extensively associated with multimodal annotation information, including: 1) Text descriptions: providing over 820,000 textual prompts across macro, meso, and micro granularity levels, supporting fine-grained text-motion alignment; 2) Music audio: offering 5,602 music-dance pairings in the aist and finedance subsets; 3) Speech and scripts: providing over 21,000 speech audio/transcript-gesture pairings and script-gesture pairings in the beat_v2.0.0 subset. Consequently, MotionHub supports various trainable tasks, mainly including text-to-motion generation (823,814 prompts), motion-to-text description (823,814 references), music-to-dance generation (5,602 pairs), speech/audio-to-gesture generation (21,586 pairs), and script-to-gesture generation (21,594 scripts). The dataset adopts standard train/test splits and provides detailed metadata such as frame counts and durations. It is suitable for advancing research in multimodal motion generation, cross-modal retrieval, and motion semantic understanding.

创建时间：

2026-06-29

原始信息汇总

MotionHub 数据集概述

MotionHub 是一个以 SMPLX 人体运动数据为核心的多模态数据集，专注于文本到运动、音乐到舞蹈等跨模态任务。该数据集由多个经过视觉检查和质量审查的运动子集组成，提供统一的 train.json / test.json 标注格式。

数据集基本信息

生成日期：2026-06-30
已发布子集数量：8
总片段数：69,107
总运动引用数：69,107
总音乐引用数：5,602
总运动帧数：14,829,184
总运动时长：137.3 小时
跳过无效行数：43
缺失的层级字幕引用数：5,079
缺失的运动引用数：0
缺失的音乐引用数：0

已发布子集列表

数据集包括以下 8 个子集：

CombatMotion_seperate
aist
amass_sup
beat_v2.0.0
finedance
fit3d
humansc3d
permo

各子集详情

子集	拆分	片段数	运动引用数	帧数	时长（小时）	音乐引用数	跳过无效行	可训练任务	文本计数	缺失引用
CombatMotion_seperate	训练: 25,887<br>测试: 100	25,987	25,987	2,512,093	23.26	0	0	文本到运动: 554,894 提示<br>运动到文本: 25,986 运动 / 554,894 引用	macro: 346,549<br>meso: 206,135<br>micro: 2,210	运动: 0<br>音乐: 0<br>字幕: 1
aist	训练: 1,388<br>测试: 20	1,408	1,408	562,091	5.20	1,408	0	文本到运动: 4,224 提示<br>运动到文本: 1,408 运动 / 4,224 引用<br>音乐到舞蹈: 1,408 对	macro: 1,408<br>meso: 1,408<br>micro: 1,408	运动: 0<br>音乐: 0<br>字幕: 0
amass_sup	训练: 7,574<br>测试: 99	7,673	7,673	2,694,691	24.95	0	0	文本到运动: 23,535 提示<br>运动到文本: 2,615 运动 / 23,535 引用	macro: 7,845<br>meso: 7,845<br>micro: 7,845	运动: 0<br>音乐: 0<br>字幕: 5,058
beat_v2.0.0	训练: 21,234<br>测试: 369	21,603	21,603	6,165,861	57.09	0	0	文本到运动: 167,409 提示<br>运动到文本: 18,601 运动 / 167,409 引用<br>语音/音频到手势: 21,586 对<br>脚本到手势: 21,594 脚本	macro: 55,803<br>meso: 55,803<br>micro: 55,803<br>语音: 21,594	运动: 0<br>音乐: 0<br>字幕: 0
finedance	训练: 4,097<br>测试: 97	4,194	4,194	1,509,840	13.98	4,194	43	文本到运动: 23,052 提示<br>运动到文本: 4,194 运动 / 23,052 引用<br>音乐到舞蹈: 4,194 对	macro: 12,582<br>meso: 5,235<br>micro: 5,235	运动: 0<br>音乐: 0<br>字幕: 0
fit3d	训练: 934<br>测试: 10	944	944	338,904	3.14	0	0	文本到运动: 6,168 提示<br>运动到文本: 924 运动 / 6,168 引用	macro: 2,772<br>meso: 2,598<br>micro: 798	运动: 0<br>音乐: 0<br>字幕: 20
humansc3d	训练: 653<br>测试: 35	688	688	120,978	1.12	0	0	文本到运动: 4,932 提示<br>运动到文本: 688 运动 / 4,932 引用	macro: 2,064<br>meso: 2,019<br>micro: 849	运动: 0<br>音乐: 0<br>字幕: 0
permo	训练: 6,543<br>测试: 67	6,610	6,610	924,726	8.56	0	0	文本到运动: 39,600 提示<br>运动到文本: 6,610 运动 / 39,600 引用	macro: 19,830<br>meso: 19,770<br>micro: 0	运动: 0<br>音乐: 0<br>字幕: 0

可训练任务总数

运动到文本引用：823,814
音乐到舞蹈对：5,602
脚本到手势脚本：21,594
语音/音频到手势对：21,586
文本到运动提示：823,814

文本粒度统计

宏观 (macro)：448,853
中观 (meso)：300,813
微观 (micro)：74,148
语音/脚本 (speech_script)：21,594

计数规则

注解帧数优先使用 num_frames 字段，否则使用时长和帧率计算。
运动引用 和 音乐引用 统计非空注解引用。
当启用运动文件检查时，运动帧数使用实际 SMPLX 文件长度；否则使用注解中的 num_frames 或时长字段。
时长由运动帧数除以每行注解的帧率计算得到。
macro、meso、micro 统计从层级字幕 JSON 文件中解析出的非空字符串。
缺失字幕引用 指注解引用中无法找到层级字幕 JSON 的条目。
speech_script 统计非空的 speech_script_path 条目。
可训练任务仅从显式跨模态监督字段计数：字幕启用文本到运动和运动到文本，音乐启用音乐到舞蹈，语音音频/转录本启用手势任务，interactor_key 加字幕标记交互文本到运动。
smplx_path 用作验证样本可用性和帧计数的运动资产，不计为独立可训练任务。

维护说明

README 文件可通过仓库根目录下的 tools/build_motionhub_readme.py 脚本重新生成（需传入 --skip-motion-file-check 参数）。未发布的本地子集将不被包含在公共 README 中。

搜集汇总

数据集介绍

构建方式

MotionHub是一个精心组织的人体运动数据集集合，其构建方式尤为严谨。研究人员将不同来源的运动子集纳入统一框架，每个子集均配备MotionHub风格的train.json与test.json标注文件。在数据收录过程中，所有子集均经过严格的视觉检查与数据质量审核，确保只有符合标准的子集被公开发布。当前版本涵盖8个子集，总计69,107个运动片段，累积运动帧数高达14,829,184帧，总时长约137.3小时。数据构建过程中，系统自动跳过43个无效行，并精确统计缺失的运动、音乐及层次化标注引用，展现了极高的数据完整性管理标准。

特点

MotionHub具备多维度的显著特点。首先，其多模态特性极为突出，支持文本到运动、运动到文本、音乐到舞蹈、语音音频到手势等多种可训练任务，为跨模态研究提供了丰富土壤。其次，数据集引入了宏、中、微三级标注粒度，共记录448,853个宏观描述、300,813个中观描述和74,148个微观描述，辅以21,594个语音脚本标注，实现了对运动语义的精细刻画。此外，每个子集均保持独立的训练与测试划分，运动数据以SMPLX格式存储，确保了模型训练与评估的标准化与可重复性。

使用方法

使用MotionHub时，研究人员可直接从HuggingFace平台加载已发布的8个子集。数据集采用统一的JSON格式标注，用户可通过解析train.json与test.json文件获取运动序列、对应文本描述及音乐引用。对于文本到运动任务，可从caption字段提取提示语；音乐到舞蹈任务则利用music引用构建配对数据。数据集还提供了清晰的帧数、时长与帧率等元信息，便于批量处理。研究人员可从仓库根目录运行tools/build_motionhub_readme.py脚本，结合--data-root参数指定数据路径，并使用--skip-motion-file-check选项加速文件检查，从而高效生成或更新数据集文档。

背景与挑战

背景概述

在虚拟角色生成、人机交互与数字内容创作等领域，人体运动捕捉数据的质量与多样性是驱动模型性能提升的关键瓶颈。针对这一需求，由多个国际研究机构联合构建的MotionHub数据集应运而生，其创建时间可追溯至2026年，旨在为文本到运动生成、音乐驱动舞蹈合成以及语音到手势映射等跨模态任务提供标准化训练资源。该数据集整合了CombatMotion、AIST、AMASS等八个经过严格质量筛选的子集，共计超过六万九千个运动片段与一百四十八亿帧数据，总计时长逾一百三十七小时，显著拓宽了运动数据的覆盖范围与细粒度标注维度。通过引入宏观、中观与微观三级文本标注体系，MotionHub不仅推动了文本到运动的精细化控制研究，更为多模态动作生成模型的泛化能力评估树立了新标杆，对智能动画、虚拟人技术及行为理解领域产生了深远影响。

当前挑战

当前MotionHub面临的核心挑战体现于领域问题与数据构建双重维度。在领域层面，现有运动生成模型通常依赖单一模态数据，难以应对从细粒度文本描述到复杂群体交互动作（如武术格斗与双人舞蹈）的零样本泛化，尤其缺乏对音乐节奏、语音韵律与运动动力学之间时序关联建模的鲁棒策略。构建过程中，数据集面临跨子集标签体系不一致的难题，例如不同来源的捕捉设备差异导致SMPL-X参数化空间存在分米级位移偏差，需通过帧级校验与插值对齐；此外，层级化文本标注的缺失率高达五千余条，部分非英文语义的注释使得多语言运动描述检索任务出现训练样本稀疏现象。群体遮挡导致的光学运动捕获失败更可能引入局部关节噪声，需依赖人工视觉验证与动态质量筛除机制加以剔除。

常用场景

经典使用场景

MotionHub作为大规模人体运动数据集，其经典使用场景聚焦于多模态运动生成与理解。研究者常利用该数据集训练文本到运动（text-to-motion）模型，基于自然语言描述生成逼真的人体动作序列；同时支持运动到文本（motion-to-text）的反向任务，实现运动语义的自动标注。数据集中包含的5,602组音乐-舞蹈配对数据，使得音乐驱动舞蹈生成成为另一核心应用，尤其适用于FineDance和AIST等子集。此外，BEATv2.0.0子集提供了丰富的语音/音频到手势映射样本，为会话代理的自然动作合成奠定了数据基础。涵盖8个子集、近7万段运动片段和超过137小时的时长，使其成为时序运动建模的基准资源。

解决学术问题

MotionHub解决了多模态人体运动研究中数据碎片化和标注不一致的关键瓶颈。此前，不同数据集在运动表示格式、文本粒度、采样频率等方面存在显著差异，制约了跨任务模型的泛化能力。该数据集通过统一采用SMPL-X参数化人体模型，并建立标准化的分层描述体系（宏观/中观/微观），为文本-运动对齐研究提供了可量化比较的基准。其包含的83万余条文本-运动对应关系，有效缓解了细粒度运动描述的数据稀疏问题。在学术层面，它推动了条件运动生成、跨模态检索和运动理解等方向的发展，尤其为评估模型在复杂语境下生成多样、可控运动的能力提供了标准化平台。

衍生相关工作

MotionHub的发布催生了一系列经典学术工作。基于其文本-运动子集，研究者提出了多模态运动生成框架，如将扩散模型应用于时序运动建模，显著提升了生成动作的多样性和物理合理性。依托AIST和FineDance子集，音乐驱动舞蹈生成领域涌现出节奏感知的潜在空间映射方法，实现了舞蹈动作与节拍的高精度对齐。BEATv2.0.0子集则催生了语音风格迁移与手势协同生成的相关研究，推动了社交信号处理的发展。在运动理解方面，分层文本标注体系促进了细粒度运动描述生成任务，启发了一系列基于Transformer的跨模态对比学习模型。这些衍生工作共同确立了MotionHub作为人体运动研究领域核心基准的地位。

以上内容由遇见数据集搜集并总结生成