five

PianoMotion10M

收藏
arXiv2024-06-14 更新2024-06-21 收录
下载链接:
https://agnjason.github.io/PianoMotion-page
下载链接
链接失效反馈
官方服务:
资源简介:
PianoMotion10M是由浙江大学创建的大型钢琴手势数据集,包含116小时的钢琴演奏视频和1000万个标注的手势。数据集通过互联网收集专业钢琴演奏视频,并使用MANO模型进行手势标注。该数据集涵盖多种音乐风格和钢琴技巧,旨在为钢琴演奏中的手势生成提供指导,解决钢琴教学中手势和指法的复杂问题。

PianoMotion10M is a large-scale piano gesture dataset developed by Zhejiang University, which contains 116 hours of piano performance videos and 10 million annotated gestures. The dataset collects professional piano performance videos from the Internet, and uses the MANO model to perform gesture annotation. It covers a variety of musical styles and piano performance techniques, aiming to provide guidance for gesture generation in piano performance and solve the complex problems of gestures and fingerings in piano teaching.
提供机构:
浙江大学
创建时间:
2024-06-14
搜集汇总
数据集介绍
main_image_url
构建方式
在钢琴演奏教学领域,传统方法难以捕捉手指在琴键间过渡的连续运动。PianoMotion10M的构建始于从Bilibili平台精选14位专业钢琴演奏者的3647个候选视频,通过严格预处理筛选出1966个高质量演奏视频。这些视频采用鸟瞰视角录制,确保手部区域清晰可见,并剔除了人声或其他乐器干扰的音频。随后,利用先进的自动钢琴转录技术将纯钢琴音频转换为MIDI文件,并通过MediaPipe框架检测手部边界框,再采用基于Transformer的HaMeR模型重建参数化MANO手部模型姿态。最终通过汉佩尔滤波器和线性插值处理异常值与缺失数据,并应用Savitzky-Golay滤波器平滑运动序列,形成包含116小时视频、1050万帧标注手部姿态的大规模数据集。
使用方法
该数据集主要服务于钢琴演奏手部运动生成任务的研究与评估。使用者可基于音频-MIDI-运动的三元对齐数据,训练从钢琴旋律到手部运动的生成模型。基准方法采用两阶段架构:首先通过位置预测器从音频特征中估计双手三维运动轨迹,再以预测位置为条件,利用基于扩散概率模型的姿态生成器合成连续手部姿态序列。评估时需采用专门设计的多维指标:弗雷歇手势距离和瓦瑟斯坦手势距离衡量单手势态分布相似性,弗雷歇起始距离评估双手整体运动质量,位置距离检验手部定位精度,平滑度指标分析运动连续性。数据集已按7:1:8比例划分为训练、验证与测试集,支持端到端的生成模型训练与系统性性能评估。
背景与挑战
背景概述
在人工智能赋能教育的时代浪潮下,音乐器乐教学系统的智能化设计成为备受关注的前沿课题。钢琴演奏中,音符按键可从乐谱直接推导,而按键间复杂的手部过渡动作与指法编排则亟需更精细的指导。为此,浙江大学等机构的研究团队于2024年构建了PianoMotion10M数据集,旨在为钢琴演奏的手部运动与指法生成提供数据基础。该数据集包含从鸟瞰视角采集的116小时钢琴演奏视频,并标注了高达一千万帧的手部姿态,融合了音频、MIDI文件与三维手部运动参数。作为首个大规模关联钢琴音乐与手部运动的数据集,PianoMotion10M为音乐-动作生成、AI钢琴教练等研究方向奠定了关键基石,推动了表演艺术与计算技术的深度融合。
当前挑战
PianoMotion10M致力于解决钢琴手部运动生成这一核心领域问题,其挑战在于建模音乐片段与复杂、连续手部动作之间的非线性动态关系。同一音符在不同旋律语境下对应迥异的手部姿态,且音乐表达的动态性要求生成动作具备高度的平滑性与连续性,这对模型的时序建模与分布学习能力提出了严峻考验。在数据集构建过程中,研究团队面临多重挑战:需从互联网海量视频中筛选高质量、视角一致(鸟瞰)且手部无遮挡的纯钢琴演奏片段;需利用MANO参数化手部模型与HaMeR等工具进行精确且鲁棒的大规模三维姿态标注;同时,还需处理因快速运动或图像模糊导致的标注异常,并通过滤波与插值技术确保运动序列的平滑性与完整性,这些环节共同构成了数据集构建的技术壁垒。
常用场景
经典使用场景
在音乐教育与人工智能交叉领域,PianoMotion10M数据集为钢琴演奏手势生成研究提供了核心支撑。该数据集通过整合钢琴音频、MIDI文件与标注的手部运动序列,构建了从音乐到三维手部动作的映射基准。其经典应用场景在于训练和评估基于钢琴音频生成连续、自然手部运动轨迹的生成模型,为自动化钢琴教学系统奠定数据基础。
解决学术问题
PianoMotion10M有效解决了钢琴演奏手势生成研究中长期存在的数据稀缺与质量不足问题。传统方法多依赖小规模或静态手势数据,难以建模音乐与动态手部运动间的复杂非线性关系。该数据集通过提供大规模、多风格、连续标注的手部运动序列,使研究者能够深入探索音乐特征与手部姿态间的时序关联,推动了生成模型在运动平滑性、位置准确性和动作分布逼真度等方面的量化评估与性能提升。
实际应用
该数据集的实际应用主要体现在智能音乐教育辅助系统的开发中。基于PianoMotion10M训练的模型可为钢琴学习者提供实时的手部运动与指法可视化指导,模拟专业演奏者的手势轨迹,帮助纠正姿势并优化演奏技巧。此外,在虚拟钢琴演奏合成、音乐驱动的动画生成以及沉浸式音乐交互体验等领域,该数据集也为生成高保真、个性化的手部动画提供了可靠的数据来源。
数据集最近研究
最新研究方向
在音乐教育与人工智能交叉领域,PianoMotion10M数据集的推出标志着钢琴演奏手部运动生成研究迈入新阶段。该数据集通过整合116小时鸟瞰视角钢琴演奏视频与千万级手部姿态标注,为基于音频的手部三维运动生成提供了首个大规模基准。前沿研究聚焦于扩散概率模型与状态空间模型的融合应用,旨在解决音乐信号与复杂手部运动间的非线性映射难题。热点探索体现在位置预测器与姿态生成器的两阶段架构设计,通过分离位置估计与手势生成,显著提升了运动连续性与位置准确性。这一进展不仅推动了AI钢琴教练系统的实用化,也为跨模态生成任务提供了新的评估范式,对音乐教育智能化与表演艺术数字化具有深远影响。
相关研究论文
  • 1
    PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance浙江大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作