FineDance

arXiv2025-09-30 收录

下载链接：

https://li-ronghui.github.io/finedance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模的语料库，包含了7.7小时的舞蹈数据，涵盖202个序列，覆盖了16种舞蹈风格。每个舞蹈风格都作为文本描述符，具体指定了舞蹈的类型；此外，数据集还被下采样至每秒20帧。规模上，数据集拥有7.7小时的数据量和202个序列，任务旨在进行舞蹈生成和动作编辑。

This dataset is a large-scale dance corpus containing 7.7 hours of dance data, which consists of 202 sequences and covers 16 dance styles. Each dance style acts as a text descriptor to explicitly specify the type of the dance. Additionally, the dataset has been downsampled to 20 frames per second. In terms of scale, the dataset encompasses 7.7 hours of data and 202 sequences, and its targeted tasks include dance generation and motion editing.

搜集汇总

数据集介绍

构建方式

在舞蹈与音乐智能生成领域，现有数据集常因手部动作缺失、舞蹈风格粗粒度划分及姿态精度不足而制约模型表现。FineDance数据集应运而生，其构建过程严谨而系统：依托Vicon光学运动捕捉系统，邀请27位专业舞者伴随346首音乐即兴表演，精准采集全身与手指关节的3D运动轨迹。原始数据经MotionBuilder软件重定向至标准骨骼模型，再由专业人员在Blender中逐帧校准音乐与动作的对齐关系，最终形成包含14.6小时、22种细粒度舞蹈风格的高质量配对数据。每一段舞蹈均以52个标准关节点（含手指）的3D位置与旋转信息存储，并附带SMPL参数、多视角RGB视频及FilmBox格式文件，为后续研究提供了坚实的数据基础。

特点

FineDance数据集在多个维度展现出卓越特性。首先，其细粒度动作捕捉覆盖全身与手指，这是此前多数数据集所缺失的，使得舞蹈生成能够兼顾肢体与手部的协调表达，提升艺术真实感。其次，数据集涵盖22种专业定义的舞蹈风格，横跨传统与现代类型，如街舞、中国古典舞乃至首次纳入的民族舞，极大丰富了风格多样性。再者，所有数据均源自光学运动捕捉系统，避免了多视角视频重建带来的误差，确保了姿态的精准性。此外，每段舞蹈与音乐在节奏和风格上经过人工严格对齐，时长超过14.6小时，平均每段序列长达152.3秒，为长序列舞蹈生成与风格匹配研究提供了前所未有的资源。

使用方法

FineDance数据集的使用方式灵活而多元。研究者可将其直接用于训练音乐驱动的全身舞蹈生成模型，如结合扩散模型与专家网络分别生成身体与手部动作，再通过精炼网络协调融合。数据集的细粒度风格标注支持跨模态检索任务，可训练音乐风格编码器与舞蹈风格编码器，以余弦相似度评估生成舞蹈与输入音乐的风格匹配度。此外，数据集还可用于运动先验学习、从舞蹈生成音乐、以及基于SMPL参数的全身体态重建等任务。使用时，可将舞蹈序列以159维特征（52关节的3维轴角加3维全局位置）表示，音乐则提取35维时序特征与梅尔频谱图，便于接入各类深度学习框架。

背景与挑战

背景概述

音乐与舞蹈作为情感表达的重要艺术形式，在演唱会、电影及游戏等现代娱乐产业中占据核心地位。然而，高质量三维舞蹈动画的创作通常依赖专业舞者、工程师及昂贵的动作捕捉设备，过程复杂且成本高昂，催生了利用人工智能从音乐生成三维舞蹈的研究热潮。在此背景下，清华大学深圳国际研究生院与西北工业大学的研究团队于2022年提出了FineDance数据集，由Ronghui Li、Junfan Zhao等学者主导。该数据集包含14.6小时、346对音乐-舞蹈配对数据，涵盖22种细粒度舞蹈流派，通过Vicon光学动作捕捉系统采集27位专业舞者的动作，并经由MotionBuilder和Blender进行精确后处理，提供52个关节点（含手指）的三维位置与旋转信息，以及SMPL模型、多视角视频等丰富模态。FineDance是目前规模最大、流派最全的音乐-舞蹈配对数据集，其精细的手部动作和准确的姿态为AI编舞、运动先验学习及全身重建等研究提供了关键支撑，显著推动了领域发展。

当前挑战

FineDance所面临的挑战主要体现在两个方面。在领域问题层面，现有舞蹈生成方法受限于数据集，难以生成具有表现力的全身舞蹈：手部运动常被忽略或与身体运动不协调，导致动作单调或失真；同时，舞蹈流派分类粗糙（如仅4-10种），无法匹配多样化的音乐风格，且缺乏客观评估流派匹配度的指标。在构建过程中，挑战尤为突出：需要协调27位专业舞者在Vicon光学捕捉系统下完成精准表演，确保14.6小时数据中音乐与舞蹈的节奏和风格严格对齐；手动标注52个关节点（含手指）的运动信息，并处理不同流派（如街舞与中国古典舞）动作空间的巨大差异；此外，还需克服多模态数据（音乐、舞蹈序列、SMPL参数、视频）的同步与标准化难题，最终实现细粒度流派划分与高质量数据交付。

常用场景

经典使用场景

在音乐驱动的三维全身舞蹈生成领域，FineDance凭借其14.6小时的高精度动作捕捉数据、22种细粒度舞蹈流派以及包含手指关节在内的52个骨骼点标注，成为训练和评估全身舞蹈生成模型的核心基准。研究者可利用该数据集中的音乐-舞蹈配对片段，训练扩散模型或生成对抗网络，以输出与输入音乐风格匹配、节奏协调且手部动作自然流畅的完整舞蹈序列。其经典用法聚焦于从任意音乐片段生成多流派、长时长且具有表达力的全身舞蹈，尤其强调对手部精细运动的建模，弥补了此前数据集在手部动作缺失或粗糙上的不足。

实际应用

在实际应用中，FineDance可直接服务于娱乐产业中的自动化动画制作环节，例如为游戏角色、虚拟偶像或元宇宙中的数字人实时生成与背景音乐匹配的个性化舞蹈动画，大幅降低传统动作捕捉与人工编排的高昂成本。在影视制作中，该数据集可用于快速生成群舞场景的预可视化素材，辅助导演进行创意迭代。此外，在教育与健身领域，FineDance支持舞蹈教学系统的开发，通过对比用户动作与数据集中的专业舞姿，提供实时反馈与纠正。其多视角RGB视频与SMPL参数化模型还拓展至全身体态重建与运动先验学习，为增强现实、康复训练等场景提供数据基础。

衍生相关工作

FineDance的出现催生了一系列衍生研究工作，其中最具代表性的是其配套提出的FineNet框架，该网络采用扩散模型结合专家网络与检索模块的生成-合成两阶段架构，在全身舞蹈生成任务上达到当时最优性能。后续工作在此基础上探索了更高效的跨模态对齐策略，例如利用对比学习增强音乐与舞蹈流派的匹配度。此外，该数据集被用于训练运动先验模型，如LEMO和Ma等人的工作，通过预训练FineDance中的丰富动作数据，改善了遮挡场景下的人体重建与运动预测效果。还有研究反向利用其严格对齐的音乐-舞蹈配对，探索从舞蹈生成音乐的逆任务，拓展了多模态生成的研究边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集