SoulDance Dataset
收藏github2025-08-21 更新2025-08-28 收录
下载链接:
https://github.com/xjli360/SoulDance-Official
下载链接
链接失效反馈官方服务:
资源简介:
通过专业动作捕捉系统采集的高精度音乐-舞蹈配对数据集,具有精心标注的整体舞蹈动作,包含身体、手部和面部的协调运动
A high-precision music-dance paired dataset collected via professional motion capture systems, which features meticulously annotated holistic dance movements and encompasses coordinated motions of the body, hands, and face.
创建时间:
2025-07-31
原始信息汇总
SoulDance 数据集概述
数据集基本信息
- 名称:SoulDance
- 类型:高精度音乐-舞蹈配对数据集
- 采集方式:专业动作捕捉系统
- 内容特征:精细标注的整体舞蹈动作(包含身体、手部和面部)
- 用途:音乐对齐的整体3D舞蹈生成研究
- 可用性:仅限学术使用
关键特性
- 分层残差向量量化:建模身体、手部和面部之间复杂细粒度的运动依赖关系
- 音乐对齐生成模型:将分层运动单元组合成富有表现力且协调的整体舞蹈
- 音乐-运动检索模块:预训练跨模态模型确保时间同步和语义连贯性
数据格式与处理
运动数据表示
- 623维格式:包含根旋转速度、根线性速度、根Y坐标、关节位置数据、旋转数据、局部速度和脚部接触信息
- 723维格式:623维格式基础上增加100维面部特征(使用FLAME表示法)
数据处理流程
- 原始序列:长格式(2-8分钟),30 FPS
- 预处理:分割为5秒的运动+音乐片段
- 运动特征提取:使用humantomato表示法进行身体和手部姿态表示
音乐特征提取
- Librosa格式:MFCC、色度、频谱图特征
- Jukebox格式:OpenAI Jukebox编码
- MMR格式:音乐-运动检索增强特征
许可要求
- 使用限制:仅限学术研究用途
- 申请流程:
- 签署EULA表格(位于
assets/SoulDance-EULA-20250728.pdf) - 发送签署表格至指定邮箱
- 审核通过后获取下载链接
- 签署EULA表格(位于
数据集设置
- 存储路径:SoulDance_data/文件夹
- 文件组织:
- 运动数据:data/souldance/motion/slice*.npz
- 音乐数据:data/souldance/music/slice*.mp4
相关技术依赖
- 人体模型:SMPL-X人体模型、FLAME人脸模型
- 处理框架:基于EDGE和HumanML3D的数据处理方法
- 生成框架:借鉴MoMask和TMR的生成框架
引用信息
bibtex @misc{li2025souldance, title={Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling}, author={Xiaojie Li and Ronghui Li and Shukai Fang and Shuzhao Xie and Xiaoyang Guo and Jiaqing Zhou and Junkun Peng and Zhi Wang}, year={2025}, eprint={2507.14915}, archivePrefix={arXiv}, primaryClass={cs.MM}, url={https://arxiv.org/abs/2507.14915} }
搜集汇总
数据集介绍

构建方式
在三维舞蹈生成领域,SoulDance数据集通过专业运动捕捉系统采集高精度音乐舞蹈配对数据,采用分层残差向量量化技术建模身体、手部和面部的复杂运动依赖关系。数据预处理遵循EDGE方法,将原始长序列分割为5秒的片段,并利用humantomato表示法提取关节位置与运动特征,确保运动数据的多模态对齐与层次化编码。
特点
该数据集的核心特点在于其音乐与舞蹈的精确时空对齐,以及涵盖身体、手部及面部的全息运动表征。采用623维运动特征格式,融合根关节速度、旋转数据及足部接触信息,并扩展至723维以包含FLAME面部模型参数。数据集支持多种音乐特征提取方式,包括Librosa音频特征、Jukebox编码及跨模态检索增强表示,为生成模型提供丰富的多模态监督信号。
使用方法
使用者需签署学术许可协议并通过审核获取数据访问权限。数据集需按指定目录结构组织运动与音乐文件,支持通过标准化流程提取运动与音乐特征。训练流程包含分层残差向量量化模型、音乐运动检索模块及掩码变换器的分阶段训练,最终可通过生成脚本合成音乐驱动的全息舞蹈序列,评估阶段提供重建质量与生成效果的量化分析工具。
背景与挑战
背景概述
在计算机视觉与人工智能交叉领域,舞蹈生成作为跨模态内容生成的重要分支,长期面临音乐与动作协同建模的复杂性挑战。SoulDance数据集由字节跳动研究团队于2025年创建,旨在解决三维全身舞蹈生成中音乐与动作跨模态对齐的核心问题。该数据集通过专业运动捕捉系统采集高精度舞蹈序列,涵盖身体、手部及面部的协同运动数据,为音乐驱动的 holistic 舞蹈生成提供了首个数值化基准,显著推动了跨模态生成模型在数字人动画领域的应用发展。
当前挑战
该数据集主要应对音乐与舞蹈跨模态对齐的复杂性挑战,具体体现在舞蹈动作需要同时满足节奏同步、语义连贯及风格一致性等多重要求。构建过程中面临三维运动数据采集的高成本难题,需协调专业舞者与精密动捕设备;数据处理阶段需攻克多模态特征融合技术瓶颈,特别是623维运动特征与音乐特征的时空对齐;此外还需解决长序列舞蹈数据的分段标准化问题,确保5秒片段的运动连续性不受破坏。
常用场景
经典使用场景
在计算机视觉与数字人技术领域,SoulDance数据集为音乐驱动的三维舞蹈生成提供了关键支撑。该数据集通过专业动作捕捉系统采集的高精度舞蹈序列,结合分层残差向量量化技术,能够有效建模身体、手部和面部的协同运动。其典型应用场景包括生成与音乐节奏高度同步的全身舞蹈动画,为虚拟角色注入更具表现力的动态行为。
实际应用
在虚拟现实与娱乐产业中,该数据集支撑了高质量数字人动画的实际应用。通过端到端的生成框架,可快速创建与任意音乐配对的舞蹈表演,适用于游戏角色动画、虚拟演唱会制作等场景。其技术方案还能扩展至影视特效领域,为动态捕捉提供数据驱动的增强方案。
衍生相关工作
基于该数据集衍生的SoulNet框架,开创了分层运动建模的新范式。相关研究延续了EDGE和HumanML3D的数据处理理念,并融合了MoMask的生成式框架与TMR的跨模态检索技术。这些工作共同推动了音乐-舞蹈生成领域的标准化进程,为后续研究提供了可复现的基准体系。
以上内容由遇见数据集搜集并总结生成



