five

Piano Syllabus (PSyllabus) dataset

收藏
arXiv2024-03-07 更新2024-06-21 收录
下载链接:
https://pianosyllabus.com/
下载链接
链接失效反馈
官方服务:
资源简介:
Piano Syllabus (PSyllabus)数据集是由庞培法布拉大学的音乐技术组创建,包含7901首钢琴曲,涵盖11个难度级别和1233位作曲家。数据集通过半自动清理过程,从原始的9829首曲目中筛选而出,旨在为音乐信息检索领域提供一个用于音频基础难度估计的参考数据集。该数据集不仅规模庞大,且在女性作曲家的作品占比上有所提升,占总曲目的14%。数据集的应用领域主要集中在音乐教育,通过自动估计音乐作品的演奏难度,帮助设计个性化的学习课程,提高学生的学习动力和参与度。
提供机构:
音乐技术组,庞培法布拉大学,巴塞罗那
创建时间:
2024-03-07
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐教育领域,自动评估乐曲演奏难度对于个性化教学至关重要。Piano Syllabus (PSyllabus) 数据集应运而生,旨在填补基于音频的难度估计空白。该数据集源自拥有十年历史的Piano Syllabus网络社区,初始收集了12,140首乐曲及其难度标注。构建过程中,研究者首先从9,829首同时具备难度元数据和YouTube链接的乐曲出发,通过启发式方法剔除94首钢琴协奏曲和1,658个重复链接,并利用YouTube章节信息裁剪音频片段。随后,借助ChatGPT-4 API进行语义验证,最终经过人工与自动结合的严格清洗,得到包含7,901首钢琴作品、涵盖11个难度等级和1,233位作曲家的高质量音频数据集。
特点
PSyllabus数据集在音乐信息检索领域展现出显著优势。它横跨巴洛克至20世纪多个音乐时期,其中浪漫主义与20世纪作品占比最高,而巴洛克与古典时期相对较少。作曲家分布呈现长尾特征,斯卡拉蒂、李斯特、巴赫和肖邦等名家作品占比较大。尤为突出的是,数据集的平均不平衡比(AIR)为1.02,表明难度等级分布均衡,克服了同类数据集中常见的类别失衡问题。此外,女性作曲家作品占比达14%,远超先前数据集,为评估模型在未充分代表群体上的表现提供了宝贵资源。
使用方法
PSyllabus数据集的使用聚焦于从音频中直接估计演奏难度。研究者采用两种输入表示:钢琴卷帘(piano roll)和常数Q变换(CQT),前者捕捉音符时序与音高,后者揭示和声与音色特征。模型基于CNN-RNN-Attention架构,通过残差卷积网络提取特征,门控循环单元建模时间依赖,层级注意力机制动态聚合全局信息。训练中采用序数损失函数以保持难度等级的排序关系,并支持多任务学习,如同时预测音乐时期或作曲家,以提升模型泛化能力。数据集以Creative Commons 4.0许可在Zenodo平台共享,并提供原始音频链接及元数据,便于研究者复现与拓展。
背景与挑战
背景概述
在音乐教育领域,准确评估演奏曲目的技术难度对于个性化教学方案的制定至关重要。然而,传统方法多依赖于乐谱或符号化表示,忽视了音频信号中蕴含的丰富表现信息。2024年,由庞培法布拉大学音乐技术集团的Pedro Ramoneda联合西江大学、阿利坎特大学的研究团队,基于Ian Wheaton自2014年创建的Piano Syllabus网络社区,构建了首个面向音频的钢琴演奏难度数据集——PSyllabus。该数据集涵盖7,901首钢琴作品,跨越11个难度等级,包含1,233位作曲家的创作,其中女性作曲家作品占比达14%,显著提升了数据集的多样性与代表性。这一开创性工作填补了音频层面难度估计的研究空白,为音乐信息检索领域提供了标准化基准,推动了教育技术从符号分析向真实音频理解的范式跃迁。
当前挑战
音频层面演奏难度估计面临双重挑战。领域问题层面,音乐难度具有主观性与多维性,同一作品因演奏者诠释差异可能呈现不同技术需求,而现有研究多局限于符号化分析,难以捕捉音频中动态、触键、踏板等表现性特征,导致模型泛化能力不足。数据集构建层面,原始社区数据存在严重噪声:YouTube链接失效、视频片段与曲目不匹配、同一视频包含多首作品等。研究团队需通过半自动化清洗流程,包括启发式规则筛选、基于ChatGPT-4的语义验证,以及人工复核,最终从9,829首候选曲目中剔除1,928首,确保数据质量。此外,11级难度标签的序数特性要求模型具备精细区分能力,而数据不平衡(如巴洛克时期作品较少)进一步加剧了学习难度。
常用场景
经典使用场景
在音乐教育领域,Piano Syllabus (PSyllabus) 数据集的核心应用在于自动评估钢琴曲目的演奏难度。该数据集收录了7,901首涵盖11个难度等级、跨越1,233位作曲家的钢琴作品,为基于音频的难度估计提供了前所未有的资源。研究者利用该数据集训练深度学习模型,通过分析音频信号中的时频特征与音符序列,实现对曲目难度的精准预测,从而辅助教师和学生制定个性化的学习路径。这一场景突破了传统依赖乐谱符号的局限,使得大量仅有音频记录的曲目也能被纳入难度评估体系。
解决学术问题
该数据集解决了音乐信息检索领域中长期存在的音频难度估计数据匮乏问题。此前的研究多集中于乐谱或乐谱图像,忽视了音频模态的潜力,导致学生难以探索无符号转录的曲目。PSyllabus 提供了首个大规模、多等级、多作曲家的音频难度基准,使得研究者能够系统性地探索音频特征与演奏难度之间的映射关系。其意义在于推动了难度估计从符号域向音频域的范式迁移,并验证了多模态融合(如CQT与钢琴卷帘)在提升预测准确性方面的有效性,为音乐教育技术的智能化发展奠定了数据基础。
衍生相关工作
PSyllabus 数据集的发布催生了多项衍生研究。其中,多任务学习框架被引入以同时预测难度、作曲家与音乐时期,实验表明辅助任务(如时期分类)能显著提升难度估计的鲁棒性。此外,研究者基于该数据集构建了零样本基准测试,评估模型在非分布数据(如黑人女性作曲家作品)上的泛化能力,揭示了模型潜在的性别偏差并推动了公平性研究。该数据集还与Mikrokosmos-difficulty、Can I Play It?等符号数据集形成互补,促进了跨模态难度估计方法的对比与融合,成为音乐教育计算领域的重要参考基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作