SPD-GEN
收藏arXiv2025-05-07 更新2025-05-09 收录
下载链接:
https://github.com/Qzping/ELGAR
下载链接
链接失效反馈官方服务:
资源简介:
SPD-GEN 数据集是一个专门为运动生成任务定制的数据集,从 MoCap 数据集 SPD 中收集和规范化而来。它包含约 7000 秒的全身大提琴表演运动数据,数据以 6D 旋转表示,包括 21 个关节(不包括骨盆)和每只手 15 个关节,共计 306 个自由度。该数据集为 3D 器乐表演运动生成任务提供了一个新的基准。
提供机构:
中央音乐学院, 中国
创建时间:
2025-05-07
搜集汇总
数据集介绍

构建方式
SPD-GEN数据集源自高质量的SPD运动捕捉数据集,经过精心整理与标准化处理,以适配乐器表演动作生成任务。研究团队首先从SPD数据集中选取了81段大提琴演奏片段,涵盖了不同身高、性别的演奏者以及不同形状与摆放位置的乐器。为确保数据一致性,团队采用了两阶段逆向运动学(IK)处理,使用SMPL-X格式的VPoser进行人体关键点归一化,并基于Kabsch算法对齐乐器位置。此外,数据集还重建了大提琴桥的弧形结构,以更精确地模拟真实演奏中的弦接触行为。最终生成的SPD-GEN包含约7000秒的全身动作数据,采用6D旋转表示法,完整记录了21个身体关节和30个手部关节的运动轨迹。
使用方法
该数据集主要服务于基于扩散模型的乐器表演动作生成研究,使用时需配合音频特征提取器(如Jukebox)构建端到端生成系统。研究者可将5秒时长的动作片段作为训练单元,通过叠加4秒重叠帧实现长序列生成。为优化生成质量,建议结合论文提出的手部交互接触损失(HICL)和弓交互接触损失(BICL)进行模型训练,这两个损失函数能有效约束生成动作的物理合理性。评估阶段应采用数据集特有的三项指标:手指接触距离反映按弦精度,弓弦距离评估运弓准确性,而运弓分数则衡量动作与音乐节奏的契合度。数据集提供的标准化身体参数和乐器坐标,支持生成结果在不同体型演奏者间的泛化应用。
背景与挑战
背景概述
SPD-GEN数据集由中央音乐学院与清华大学联合团队于2025年提出,作为ELGAR框架的核心支撑数据,专注于大提琴演奏动作的跨模态生成研究。该数据集基于运动捕捉系统采集的81首演奏曲目构建,通过标准化处理解决了不同演奏者体型与乐器尺寸的异质性问题,首次实现了从音频信号到全身精细化演奏动作的端到端生成。其创新性地重构了大提琴琴桥的物理形态,并引入6D旋转表征体系,为音乐表演动画、智能音乐教育等领域提供了首个包含完整肢体交互的基准数据集,填补了乐器演奏动作合成领域高质量三维数据的空白。
当前挑战
SPD-GEN面临的挑战主要体现在两个维度:在领域问题层面,需解决音频驱动下演奏动作生成的时空对齐难题,包括左手按弦位置与音高的精确映射、弓弦接触点的动态跟踪等音乐物理约束;在构建过程中,需克服运动捕捉数据的高噪声干扰、不同演奏者 kinematics 参数的归一化,以及弓弦交互细节的几何建模等关键技术瓶颈。数据集还需应对长序列生成中的音乐语境连贯性保持、演奏风格多样性不足等挑战,这些因素共同制约着生成动作的艺术表现力与物理真实性。
常用场景
经典使用场景
在音乐信息检索与计算机动画交叉领域,SPD-GEN数据集为基于音频驱动的三维大提琴演奏动作生成研究提供了基准测试平台。该数据集通过标准化不同演奏者的运动捕捉数据,支持生成模型学习从音乐音频到精细肢体动作的映射关系,特别关注左手按弦与右手运弓的交互细节,为数字人表演动画提供高保真的动作素材。
解决学术问题
SPD-GEN有效解决了乐器演奏动作合成中的多模态对齐难题,通过引入手指接触距离、弓弦距离等专业指标,建立了音频信号与三维动作的空间约束关系。其贡献在于突破了传统方法仅生成局部肢体动作的局限,首次实现包含完整身体协调、乐器交互细节的端到端生成,为音乐驱动的运动合成领域提供了可量化的评估体系。
实际应用
该数据集在虚拟音乐教育中展现出重要价值,可生成与真实演奏力学特征匹配的教师示范动画。在数字娱乐产业,支持游戏角色自动生成符合音乐情感的大提琴演奏动作,显著降低专业动画制作成本。其衍生的交互接触损失函数还被应用于其他弦乐器数字孪生系统的开发。
数据集最近研究
最新研究方向
在音乐与动作生成领域,SPD-GEN数据集的最新研究聚焦于基于扩散模型的端到端音频驱动大提琴演奏动作生成。该研究突破了传统方法仅关注局部肢体运动的局限,首次实现了包含精细手部动作和复杂弓弦交互的全身演奏动作合成。通过引入手部交互接触损失(HICL)和弓弦交互接触损失(BICL)等创新性约束机制,显著提升了生成动作的物理真实性与演奏合理性。该方向与当前生成式AI在跨模态合成领域的前沿进展相呼应,特别是在音乐信息检索与物理约束运动生成相结合的热点问题上具有开创性意义。其技术成果可广泛应用于数字人表演、音乐教育可视化及交互式艺术创作等领域,为乐器演奏动作的数字化建模建立了新的技术范式。
相关研究论文
- 1ELGAR: Expressive Cello Performance Motion Generation for Audio Rendition中央音乐学院, 中国 · 2025年
以上内容由遇见数据集搜集并总结生成



