MotionMillion

Name: MotionMillion
Creator: 上海交通大学, 香港科技大学, 浙江大学, 香港大学, 复旦大学, 上海人工智能实验室, 东华师范大学
Published: 2025-07-10 01:52:04
License: 暂无描述

arXiv2025-07-10 更新2025-07-11 收录

下载链接：

https://github.com/VankouF/MotionMillion-Codes

下载链接

链接失效反馈

官方服务：

资源简介：

MotionMillion 是一个大规模高质量的人体动作数据集，包含超过 2000 小时和 200 万个高质量动作序列，是目前为止最大的人体动作数据集。数据集的内容涵盖了广泛的室内和室外人体动作，包括日常生活中的动作和不符合人体动作的动作。数据集的创建过程包括从网络规模的视频源中重建人体动作，以及重新组合现有的动作数据集。数据集的应用领域是人体动作生成，旨在解决零样本动作生成的泛化能力问题。

MotionMillion is a large-scale and high-quality human motion dataset containing over 2,000 hours and 2 million high-quality motion sequences, making it the largest human motion dataset to date. The dataset covers a broad spectrum of indoor and outdoor human motions, encompassing both daily routine actions and non-human-like motions. The construction of this dataset involves reconstructing human motions from web-scale video sources and recombining existing motion datasets. Its targeted application is human motion generation, aiming to address the generalization challenge in zero-shot motion generation.

提供机构：

上海交通大学, 香港科技大学, 浙江大学, 香港大学, 复旦大学, 上海人工智能实验室, 东华师范大学

创建时间：

2025-07-10

原始信息汇总

MotionMillion 数据集概述

📌 基本信息

数据集名称: MotionMillion
研究领域: 计算机视觉/图形学/机器人学中的文本到动作生成
论文状态: 已被ICCV 2025接收
论文链接: https://arxiv.org/abs/2507.07095
项目页面: https://vankouf.github.io/MotionMillion/
代码仓库: https://github.com/VankouF/MotionMillion-Codes/

🏆 核心贡献

提出当前最大规模的人体运动数据集：
- 包含200万+高质量运动序列
- 总时长超过2000小时
提出首个零样本运动生成评估基准MotionMillion-Eval
开发可扩展至70亿参数量的模型架构

📊 数据集结构

dataset ├── MotionMillion │ ├── motion_data │ ├── texts │ ├── mean_std │ └── split │ ├── t2m_60_300 │ └── tokenizer_96

🛠 使用指南

环境配置

Python 3.8.11
PyTorch 2.4.1
依赖安装: pip install -r requirements.txt

预训练模型

提供3B和7B两种规模的预训练模型
下载命令: bash prepare/download_pretrained_models.sh

推理测试

单次推理: bash scripts/inference/single_inference/test_t2m_7B.sh
批量评估: bash scripts/inference/batch_inference/test_t2m_7B.sh

🏗 训练流程

运动标记器训练
- 多GPU训练: bash scripts/train/train_tokenizer.sh
- 单GPU训练: bash scripts/train/train_tokenizer_single_gpu.sh
文本到动作模型训练
- 3B模型训练: bash scripts/train/train_t2m_3B.sh
- 7B模型训练: bash scripts/train/train_t2m_7B.sh

📜 许可信息

许可证类型: Apache License
引用格式: bash @misc{fan2025zerozeroshotmotiongeneration, title={Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data}, author={Ke Fan et al.}, year={2025}, eprint={2507.07095}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

MotionMillion数据集的构建采用了高效的运动标注机制，整合了从大规模网络视频中重建的人体运动数据以及现有运动数据集的重新聚合。通过六个关键阶段（镜头分割、人体检测、边界框置信度过滤、过渡过滤、SMPL运动估计和运动过滤），确保了运动序列的高质量和时间一致性。此外，利用先进的视觉语言模型（如GPT-4o）生成语义丰富的运动描述，并通过多阶段过滤过程消除场景切换和静态姿态抖动，最终形成了包含超过2000小时高质量文本-运动对的数据集。

特点

MotionMillion是目前规模最大、质量最高的人体运动数据集，包含超过200万条运动序列，覆盖了广泛的室内外活动和复杂动作组合。其特点包括高度的语义多样性和姿态多样性，通过t-SNE可视化展示了丰富的分布。此外，数据集的运动平滑度通过平均加速度（jerk）指标进行了优化，显著优于现有数据集（如MotionX和HumanML3D），确保了生成动作的自然性和连贯性。

使用方法

MotionMillion数据集可用于训练和评估文本到运动生成模型，特别适用于零样本泛化任务。使用方法包括：1）利用数据集中的文本-运动对训练生成模型（如基于FSQ和LLAMA架构的模型）；2）通过MotionMillion-Eval基准评估模型的零样本能力，涵盖文本对齐、运动平滑度和物理可行性三个维度。数据集还支持复杂组合动作的生成，适用于计算机视觉、图形学和机器人学等领域的研究。

背景与挑战

背景概述

MotionMillion是由上海交通大学、香港中文大学（深圳）、复旦大学、香港科技大学等机构的研究人员共同创建的大规模人体运动数据集，旨在推动文本到运动生成领域向零样本（zero-shot）能力迈进。该数据集于2025年发布，包含超过2000小时、200万条高质量运动序列，是目前规模最大、多样性最丰富的文本-运动对齐数据集。其核心研究问题聚焦于解决现有文本驱动运动生成模型泛化能力不足的瓶颈，通过海量数据与可扩展模型架构的结合，探索复杂组合动作的零样本生成能力。该数据集通过统一HumanML3D、MotionX等现有数据集的标注标准，并创新性地提出基于运动学回归与多阶段过滤的自动化标注流程，显著提升了运动序列的时空连贯性与语义丰富度，为计算机视觉、图形学与机器人学领域提供了重要的基准资源。

当前挑战

MotionMillion面临的挑战主要体现在领域问题与构建过程两个维度：在领域问题层面，传统文本-运动生成模型受限于数据规模（如HumanML3D仅28.6小时数据），难以处理长文本描述的复杂组合动作（如武术连招）和域外动作（如非人类行为）。现有评估框架（如R-precision）也无法有效衡量零样本泛化能力。在构建过程中，研究团队需解决三大技术难题：1) 从单目视频重建高质量SMPL参数时，需处理遮挡、相机抖动导致的运动抖动问题；2) 设计基于GPT-4o与LLaMA的多阶段文本标注增强流程，以提升语义多样性；3) 开发基于小波变换的FSQ运动编码方法，缓解离散化导致的高频信息损失问题。此外，数据清洗需平衡运动平滑性（jitter<0.047）与动作完整性，其过滤标准比MotionX严格3.3倍。

常用场景

经典使用场景

MotionMillion数据集在文本到动作生成领域具有广泛的应用场景，特别是在需要生成多样化且自然的人体运动序列时。该数据集通过提供超过2000小时的高质量运动序列和文本标注，为研究人员提供了一个强大的工具，用于训练和评估生成模型。其经典使用场景包括虚拟角色动画生成、机器人动作规划以及增强现实和虚拟现实中的交互体验。

解决学术问题

MotionMillion数据集解决了当前文本到动作生成领域中的多个关键学术问题。首先，它通过提供大规模的数据集，显著提升了生成模型的零样本泛化能力。其次，数据集中的高质量标注和多样性使得模型能够更好地理解和生成复杂的组合动作。此外，该数据集还引入了一个全面的评估基准MotionMillion-Eval，为研究者提供了一个标准化的评估框架，从而推动了该领域的进一步发展。

衍生相关工作

MotionMillion数据集衍生了许多相关的研究工作，特别是在大规模生成模型和零样本学习方面。例如，基于该数据集的研究提出了多种创新的生成架构，如使用有限标量量化（FSQ）进行高效运动编码，以及利用小波变换减少运动抖动。此外，该数据集还推动了MotionMillion-Eval基准的建立，为后续研究提供了一个标准化的评估平台。这些工作不仅提升了文本到动作生成的性能，还为其他相关领域如计算机视觉和机器人学提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集