Multimodal DuetDance (MDD)

Name: Multimodal DuetDance (MDD)
Creator: 普渡大学
Published: 2025-08-23 13:56:37
License: 暂无描述

arXiv2025-08-23 更新2025-08-28 收录

下载链接：

https://qprerit96.qithub.io/mdd-page

下载链接

链接失效反馈

官方服务：

资源简介：

MDD是一个多模态数据集，旨在为文本控制和音乐条件下的3D双人舞蹈动作生成提供支持。该数据集包含由专业舞者表演的620分钟高质量动作捕捉数据，与音乐同步，并附有超过10K个细粒度的自然语言描述。这些注释捕捉了丰富的运动词汇，详细描述了舞伴之间的空间关系、身体运动和节奏，使MDD成为第一个无缝集成人体运动、音乐和文本以生成双人舞蹈的数据集。MDD支持两项新任务：Text-to-Duet和Text-to-Dance Accompaniment，分别用于生成协调的舞伴动作和根据领舞者的动作生成跟随者的动作。

MDD is a multimodal dataset designed to support 3D duet dance motion generation under text control and music conditioning. This dataset contains 620 minutes of high-quality motion capture data performed by professional dancers, synchronized with music, and accompanied by over 10,000 fine-grained natural language descriptions. These annotations capture a rich motion vocabulary, detailing the spatial relationships between dance partners, bodily movements and rhythms, making MDD the first dataset that seamlessly integrates human motion, music and text for duet dance generation. MDD supports two novel tasks: Text-to-Duet and Text-to-Dance Accompaniment, which are respectively used to generate coordinated duet partner motions and generate the follower's motions based on the lead dancer's movements.

提供机构：

普渡大学

创建时间：

2025-08-23

搜集汇总

数据集介绍

构建方式

在双人舞蹈生成研究领域，高质量多模态数据集的构建至关重要。MDD数据集通过专业舞蹈演员在配备16台红外摄像头的OptiTrack动捕系统中表演采集，以120帧每秒的速率记录15种舞蹈类型的动作数据，并采用SMPL-X参数化模型进行运动表征优化。数据后处理包括手动标记插值、高斯滤波去噪及块感知混合技术，确保动作连贯性与真实性。

特点

该数据集的核心特点体现在其多模态集成与精细化标注体系。MDD包含10.34小时高质量动捕数据，涵盖拉丁、舞厅及社交舞蹈三大类别，配备超过1万条自然语言描述。标注内容深度融合空间关系、身体动力学与节奏元素，采用舞蹈专业术语描述手部连接、方位变化及能量层级，平均每条注释达41词，显著超越现有交互式运动数据集的语义粒度。

使用方法

针对双人舞蹈生成任务，MDD支持两种创新性应用范式。Text-to-Duet任务要求模型根据文本提示与音乐生成领舞与伴舞的同步动作，而Text-to-Dance Accompaniment任务则需基于领舞动作、音乐与文本生成语义对齐的伴舞动作。评估体系融合FID、多模态距离与节拍对齐分数等指标，确保生成动作在分布相似性、文本对齐度与音乐同步性方面的综合性能。

背景与挑战

背景概述

Multimodal DuetDance (MDD) 数据集由普渡大学研究团队于2025年提出，旨在推动双人舞蹈生成领域的研究进展。该数据集聚焦于文本与音乐协同控制下的三维双人舞蹈动作生成，包含15种舞蹈类型、超过10小时的高精度运动捕捉数据及万余条细粒度文本标注。作为首个融合动作、音乐与文本描述的多模态双人舞蹈数据集，MDD通过专业舞者表演、多维度标注和严格后处理流程，为舞蹈生成模型提供了真实且多样化的训练资源，显著提升了双人互动舞蹈生成的可控性与艺术表现力。

当前挑战

MDD 数据集致力于解决双人舞蹈生成中动作协调性、音乐同步性与语义一致性等核心问题。其构建面临多重挑战：在领域层面，需建模领导者与跟随者间复杂的时空交互关系，避免动作冲突或节奏失配；在技术层面，高精度运动捕捉需处理标记点遮挡与噪声，而文本标注需平衡专业术语准确性与语言多样性。此外，多模态数据对齐要求音乐节拍、动作序列与文本描述在时间维度上精确匹配，增加了数据清洗与标注的复杂度。

常用场景

经典使用场景

在舞蹈生成研究领域，Multimodal DuetDance数据集为双人舞动作合成提供了多模态基准。该数据集通过融合音乐节奏与精细文本描述，支持模型学习领导者与跟随者之间的复杂互动模式，例如在拉丁舞中同步完成旋转、牵引和空间位置转换等协调动作。研究者可利用其10K条标注数据训练生成模型，实现从文本和音乐到连贯双人舞动作的端到端映射。

实际应用

在实际应用层面，MDD支持虚拟角色编舞、舞蹈教学辅助系统及沉浸式娱乐体验开发。例如，舞蹈教育平台可基于文本提示生成标准双人舞示范动作，辅助学习者理解复杂舞步组合；影视制作中可通过输入音乐与描述自动生成配套舞蹈动画，减少动作捕捉成本。其多模态控制能力尤其适用于需要精确协调的社交舞蹈训练与表演设计。

衍生相关工作

该数据集衍生了Text-to-Duet与Text-to-Dance Accompaniment两类经典任务，催生了如基于扩散模型的跨模态生成框架、音乐-文本联合注意力机制等创新方法。相关研究扩展了InterGen和Duolando等模型的适用场景，例如将文本条件注入GPT风格生成器以增强跟随者动作的上下文感知能力，或采用Jukebox音乐编码器提升节奏对齐精度，推动了多智能体舞蹈生成的技术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集