five

Motion-X++|3D人体运动数据集|生成技术数据集

收藏
arXiv2025-01-09 更新2025-01-14 收录
3D人体运动
生成技术
下载链接:
http://arxiv.org/abs/2501.05098v1
下载链接
链接失效反馈
资源简介:
Motion-X++是由国际数字经济学院(IDEA)等机构开发的大规模多模态3D全身人体运动数据集,旨在解决现有数据集在面部表情、手势和精细姿势描述方面的不足。该数据集包含19.5M帧的3D全身姿势注释,覆盖120.5K运动序列,数据来源于80.8K RGB视频和45.3K音频。数据集通过自动化的注释流程生成,支持多种下游任务,如文本驱动的全身运动生成、音频驱动的运动生成、3D全身人体网格恢复和2D全身关键点估计等。Motion-X++的应用领域广泛,涵盖了机器人、动画、游戏和生成艺术等多个领域,旨在生成更具表现力和自然感的运动序列。
提供机构:
国际数字经济学院(IDEA)、清华大学深圳国际研究生院、约翰霍普金斯大学、香港中文大学(深圳)
创建时间:
2025-01-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
Motion-X++ 数据集的构建采用了多模态的自动标注流程,首先从大量RGB视频中提取3D全身运动数据,并结合SMPL-X模型进行参数优化,生成精确的3D运动标注。通过改进的标注流程,数据集进一步扩展了数据量和模态,涵盖了120.5K个运动序列、80.8K个RGB视频、45.3K个音频样本以及19.5M帧级别的全身姿态描述。数据集的构建还引入了GPT-4V生成的语言描述,确保了文本标注的丰富性和准确性。
特点
Motion-X++ 数据集的特点在于其多模态性和大规模性。它不仅包含了全身运动数据,还涵盖了面部表情、手势动作等细节,弥补了现有数据集在表达力和多样性上的不足。数据集提供了19.5M帧的3D全身姿态标注,涵盖了室内外多种场景,支持多种下游任务,如文本驱动的运动生成、音频驱动的运动生成、3D全身人体网格恢复等。此外,数据集还通过自动生成的帧级别姿态描述和序列级别语义标签,进一步增强了数据的丰富性和实用性。
使用方法
Motion-X++ 数据集的使用方法广泛,适用于多种下游任务。在文本驱动的运动生成任务中,用户可以通过输入文本描述生成对应的全身运动序列;在音频驱动的运动生成任务中,数据集提供了音频与运动的配对数据,支持音乐到舞蹈的生成。此外,数据集还可用于3D全身人体网格恢复和2D全身关键点估计等任务。用户可以通过调用数据集中的多模态数据(如视频、音频、文本等)进行模型训练和验证,进一步提升生成运动的自然性和多样性。
背景与挑战
背景概述
Motion-X++ 是一个大规模的多模态3D全身人体运动数据集,由国际数字经济学院(IDEA)的研究团队于2023年提出。该数据集旨在解决现有运动数据集在捕捉全身运动、面部表情和手势方面的不足,特别是在多样性和表达力上的局限。Motion-X++ 包含了19.5M帧的3D全身姿态标注,覆盖了120.5K个运动序列,并提供了80.8K个RGB视频、45.3K个音频文件以及19.5M帧级别的全身姿态描述。该数据集的创建通过自动化的标注流程,能够从RGB视频中捕捉3D全身运动并生成相应的文本标签,极大地提升了数据集的规模和多样性。Motion-X++ 在文本驱动的全身运动生成、音频驱动的运动生成、3D全身人体网格恢复等下游任务中展现了显著的优势。
当前挑战
Motion-X++ 面临的挑战主要集中在两个方面。首先,现有运动数据集通常仅捕捉身体运动,缺乏面部表情和手势的细节,导致生成的运动缺乏真实感和表达力。其次,数据集的构建过程中,如何从多场景视频中自动捕捉高质量的3D全身运动并生成精确的文本标签是一个技术难题。尽管无标记的视觉捕捉方法在捕捉大规模运动方面具有潜力,但其精度仍不及基于标记的捕捉系统。此外,视频中的不连续动作、手势不准确、面部表情崩溃等问题也对数据集的构建提出了挑战。为了解决这些问题,研究团队开发了先进的镜头检测算法和优化策略,以确保捕捉到的运动具有连续性和物理合理性。
常用场景
经典使用场景
Motion-X++数据集在3D全身人体运动生成和理解领域具有广泛的应用。该数据集通过提供大规模的多模态数据,支持从文本或音频生成逼真的全身运动序列。其经典使用场景包括文本驱动的全身运动生成、音频驱动的运动生成、3D全身人体网格恢复以及2D全身关键点估计等任务。这些任务在虚拟现实、动画制作、游戏开发以及人机交互等领域中具有重要应用。
解决学术问题
Motion-X++解决了现有运动数据集在多样性、表达能力和规模上的不足。传统数据集通常仅捕捉身体动作,缺乏面部表情和手势的细节,且多局限于实验室环境。Motion-X++通过自动化的标注流程,从RGB视频中捕获3D全身运动,并生成丰富的文本描述,解决了数据稀缺性和多样性不足的问题。此外,其多模态标签支持多种下游任务,推动了运动生成和理解领域的研究进展。
衍生相关工作
Motion-X++的发布推动了多项相关经典工作的诞生。例如,基于该数据集的文本驱动运动生成方法(如MotionDiffuse和T2M-GPT)在生成多样化和逼真的运动序列方面取得了显著进展。此外,音频驱动运动生成任务(如FineDance和EDGE)也受益于Motion-X++提供的丰富音频-运动对数据。在3D人体网格恢复和2D关键点估计任务中,该数据集的高质量标注为模型训练提供了强有力的支持,推动了相关算法的性能提升。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录