Motion-X

arXiv2024-01-26 更新2024-06-21 收录

下载链接：

https://github.com/IDEA-Research/Motion-X

下载链接

链接失效反馈

资源简介：

Motion-X是一个大规模的3D表达性全身人体运动数据集，由国际数字经济研究院(IDEA)创建。该数据集包含1560万精确的3D全身姿势注释（即SMPL-X），覆盖了81100个运动序列，来源于多种场景。除了提供全身运动数据外，Motion-X还提供了1560万个帧级别的全身姿势描述和81100个序列级别的语义标签。该数据集的创建过程涉及开发一个全身运动和文本注释管道，该管道能够自动注释来自单视或多视视频的运动，并为每个视频和帧提供全面的语义标签和精细的全身姿势描述。Motion-X数据集的应用领域包括增强表达性、多样性和自然运动生成，以及3D全身人体网格恢复。

提供机构：

国际数字经济研究院(IDEA)

创建时间：

2023-07-03

AI搜集汇总

数据集介绍

构建方式

在三维人体运动生成领域，现有数据集多局限于实验室环境下的身体姿态捕捉，缺乏面部表情、手势及精细描述。为突破这些限制，Motion-X采用了一套创新的自动化标注流程。该流程从单目或多视角视频中自动提取三维全身运动数据，并生成序列级语义标签与帧级姿态描述。具体构建过程包括：首先通过大型语言模型设计动作提示词，从互联网及现有数据集中收集海量视频；随后运用分层关键点估计、分数引导的自适应时序平滑以及基于学习的三维人体模型拟合等先进技术，精准估计SMPL-X参数；最后通过规则算法自动生成包含面部情绪、身体姿态和手势细节的文本描述。整个流程高效精准，支持大规模数据扩展。

使用方法

Motion-X数据集为三维全身运动生成与理解研究提供了多功能的基准平台。在文本驱动运动生成任务中，研究者可利用其序列级语义标签和帧级姿态描述，训练模型生成富有表现力且与文本语义一致的身体、手部和面部运动。数据集已按比例划分为训练、验证和测试集，并支持使用SMPL-X作为标准运动表征。评估时，可采用FID、多样性、多模态性、R-Precision等指标。此外，该数据集的高质量伪标注也可用于提升三维人体网格恢复等任务的性能，通过在其数据上进行预训练或微调，能有效增强模型在复杂姿态和外观下的重建能力。其多模态特性也为运动先验学习、理解及与大语言模型结合的研究开辟了新路径。

背景与挑战

背景概述

在计算机视觉与图形学领域，三维人体运动生成技术对于推动动画制作、机器人仿真及虚拟现实等应用具有核心价值。然而，现有运动数据集多局限于实验室环境下采集的肢体动作，缺乏面部表情、手势等细粒度信息，且规模与多样性不足，制约了生成模型的表达能力。为应对这一挑战，国际数字经济研究院（IDEA）、清华大学深圳国际研究生院及香港中文大学（深圳）的研究团队于2024年共同发布了Motion-X数据集。该数据集通过创新的自动化标注流程，从海量单目或多视角视频中提取了1560万帧高精度三维全身运动参数（SMPL-X），涵盖8.11万条运动序列，并提供了序列级语义标签与帧级姿态描述。Motion-X的构建不仅填补了全身表达性运动数据的空白，更通过融合室内外多场景数据，显著提升了运动生成模型的自然度与多样性，为相关领域的研究奠定了新的数据基石。

当前挑战

Motion-X数据集致力于解决全身表达性运动生成这一核心问题，其挑战主要体现在两方面：在领域层面，现有方法难以同步合成自然协调的肢体动作、精细手势与丰富面部表情，导致生成的运动缺乏真实感与情感表现力；同时，文本描述与复杂三维运动之间的跨模态对齐亦存在语义鸿沟。在构建过程中，研究团队面临诸多技术难题：从单目视频中恢复精确且物理合理的三维全身运动需克服深度模糊、遮挡及运动模糊等视觉挑战；设计自动化标注流程时，需兼顾手部与面部小尺度关键点检测的鲁棒性，并开发时序平滑优化算法以消除抖动伪影；此外，为海量数据生成细粒度姿态描述需建立从运动参数到自然语言的有效映射规则，并确保标注效率与可扩展性。

常用场景

经典使用场景

在三维人体运动生成领域，Motion-X数据集为文本驱动的全身运动合成提供了关键支撑。其经典应用场景在于训练和评估生成模型，使其能够根据自然语言描述生成包含丰富面部表情、精细手部姿态及身体动作的连贯运动序列。该数据集通过提供大规模、高质量的SMPL-X参数与多层次文本标注，使得模型能够学习从语义到细粒度运动参数的复杂映射，从而生成更具表现力与真实感的运动。

解决学术问题

Motion-X有效解决了现有运动数据集中普遍存在的四大局限：身体动作缺乏面部表情与手部姿态、数据规模与多样性不足、场景局限于室内环境以及文本标注依赖人工导致可扩展性差。该数据集通过自动化的标注流程，提供了涵盖室内外多场景的精确全身运动参数，并附有序列级语义标签与帧级姿态描述，从而显著推动了表达性、多样性与自然运动生成的研究，同时为三维全身人体网格恢复等任务提供了高质量的训练资源。

实际应用

在实际应用层面，Motion-X数据集为动画制作、游戏开发、虚拟现实及机器人仿生运动规划等领域提供了强大的数据基础。基于该数据集训练的模型能够根据文本指令自动生成逼真的全身表演动画，例如生成“开心弹钢琴”或“武术踢腿”等包含细腻情感与专业动作的运动序列。这不仅大幅降低了传统动作捕捉的成本与门槛，也使得个性化、交互式的内容创作成为可能，提升了数字内容的生产效率与表现力。

数据集最近研究