MotionVid|运动姿态数据集|机器学习数据集

arXiv2025-04-01 更新2025-04-02 收录

运动姿态

机器学习

下载链接：

https://humandreamer.github.io/

下载链接

链接失效反馈

资源简介：

MotionVid是一个大规模的人类运动姿态生成数据集，由中国科学院自动化研究所创建。该数据集包含了约120万文本-姿态对，是目前为止最大的用于人类运动姿态生成的数据集。数据集通过综合互联网和公共数据集中的视频，经过视频质量筛选、数据标注、人类质量筛选和字幕质量筛选等多个步骤，确保了数据的高质量。该数据集旨在支持文本到姿态的生成任务，推动人类运动视频生成领域的研究进展。

提供机构：

中国科学院自动化研究所

创建时间：

2025-03-31

AI搜集汇总

数据集介绍

构建方式

MotionVid数据集的构建采用了多源数据整合与严格的质量过滤流程。研究团队从公开视频数据集（如Kinetics400、Kinetics-700等）和互联网资源中收集了约1000万视频样本，通过镜头分割模型预处理后，采用四级过滤机制：视频质量过滤器基于光流运动强度、文本区域占比、美学评分和模糊度评估；数据标注环节利用视觉语言模型生成动作描述并配合DWPose模型提取2D姿态；人类质量过滤器通过运动幅度、人体占比等指标筛选；最后通过CLoP模型计算文本-姿态语义相似度进行对齐优化。该流程最终从原始数据中保留约12.7%的高质量样本，形成120万对文本-姿态数据。

特点

作为当前最大规模的人体运动姿态数据集，MotionVid具有三个显著特征：其数据多样性体现在覆盖舞蹈、瑜伽等200余类动作，且包含面部和手部关键点；质量可靠性通过四级过滤机制保障，特别采用创新的LAMA损失函数提升文本-姿态语义对齐；技术兼容性表现为支持64帧以上长序列处理，并提供2D/3D运动转换接口。相比同类数据集Holistic-Motion2D，其样本量提升20倍且全量公开，在FID指标上实现62.4%的改进。

使用方法

该数据集支持端到端的文本驱动视频生成流程：首先通过MotionDiT模型将文本描述转化为结构化姿态序列，该模型融合全局注意力机制与局部特征聚合模块；继而采用基于ControlNet的Pose-to-Video框架，将初始参考图像与生成姿态输入时空注意力网络合成视频。下游任务应用时，研究者可提取子集进行动作预测或2D-3D运动提升实验。数据集已按动作类别划分训练/验证集，并提供标准化评估脚本计算FID、R-precision等指标。

背景与挑战

背景概述

MotionVid数据集由GigaAI和中国科学院自动化研究所等机构的研究团队于2025年推出，旨在解决文本到人体运动视频生成中的关键挑战。作为当前最大规模的人体运动姿态生成数据集，MotionVid包含120万文本-姿态对，覆盖舞蹈、瑜伽、日常活动等多样化动作类别。该数据集的创新性在于将视频生成过程解耦为文本到姿态和姿态到视频两个阶段，突破了传统方法依赖现有视频姿态的局限性，显著提升了生成视频的多样性和可控性。其严格的四阶段数据清洗流程（视频质量过滤、数据标注、人体质量过滤和描述质量过滤）确保了数据可靠性，为文本驱动的人体运动生成研究设立了新基准。

当前挑战

MotionVid主要应对两大核心挑战：在领域问题层面，传统文本到视频生成模型难以准确建模人体运动的复杂时空特征，常产生肢体断裂或不真实动作。数据集通过解耦生成框架将高维像素空间映射分解为可控的姿态中间表示，解决了人体运动语义对齐难题。在构建过程中，研究团队面临多模态数据对齐的挑战，包括从原始视频提取的2D姿态与文本描述的精确匹配、处理视频中多人交互场景的歧义性，以及确保长序列姿态的时间连贯性。此外，数据清洗需平衡运动幅度、人脸可见度、人体覆盖率等13项质量指标，最终仅保留约25%的原始数据。

常用场景

经典使用场景

MotionVid数据集在人体动作生成领域具有广泛的应用场景，特别是在文本到姿态生成和姿态到视频生成的任务中。该数据集通过提供大规模的文本-姿态对，支持生成多样化且高质量的人体动作视频。经典使用场景包括虚拟角色动画、体育动作分析以及影视特效制作，其中生成的动作序列能够精确匹配文本描述，满足高保真度的视觉需求。

实际应用

在实际应用中，MotionVid数据集被广泛用于虚拟现实、增强现实和游戏开发中的人体动作合成。例如，在影视制作中，导演可以通过文本描述快速生成角色动作序列，大幅减少动作捕捉的成本和时间。此外，该数据集还支持康复训练中的动作模拟，为医疗领域提供高效的动作分析工具。

衍生相关工作

MotionVid数据集衍生了多项经典工作，包括基于扩散变换器的MotionDiT模型和对比学习框架CLoP。这些工作进一步推动了文本到视频生成领域的发展，例如Animate-X和UniAnimate等模型均借鉴了该数据集的构建方法。此外，数据集还被用于2D-3D动作提升和姿态序列预测等下游任务，扩展了其在多模态生成中的影响力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MUStARD++

MUStARD++是一个多模态讽刺检测数据集，由萨里大学创建，旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本，来源于多个流行电视节目，通过手动标注确保高质量的讽刺标签。创建过程中，研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测，帮助机器理解并识别讽刺语境，解决讽刺识别中的多模态挑战。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

SuMeyYao/ysmpubmedclt

该数据集的许可证为apache-2.0，主要用于表格问答任务，数据集语言为英语，大小介于1亿到10亿之间。

hugging_face 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录