BMdataset
收藏arXiv2026-04-12 更新2026-04-17 收录
下载链接:
https://www.baroquemusic.it
下载链接
链接失效反馈官方服务:
资源简介:
BMdataset是由帕多瓦大学计算声学中心与波士顿大学联合创建的专业音乐数据集,包含347份巴洛克时期LilyPond格式乐谱(含2,646个乐章),总规模约90M tokens。该数据集由音乐学家直接从原始手稿转录,附带作曲家、曲式、乐器编制等结构化元数据,具有严格的音乐学溯源记录。作为首个音乐学导向的LilyPond数据集,其通过精细标注解决了符号音乐研究中乐谱结构信息缺失的问题,适用于音乐风格分析、作曲家分类等MIR任务,证明了专业小规模数据集在音乐AI中的独特价值。
提供机构:
帕多瓦大学·计算声学中心; 波士顿大学
创建时间:
2026-04-12
搜集汇总
数据集介绍

构建方式
在音乐信息检索领域,符号音乐数据集的构建长期依赖于MIDI格式,而基于文本的乐谱排版格式如LilyPond则鲜有涉及。BMdataset的构建过程体现了严谨的音乐学考据方法,其源数据来自BaroqueMusic.it平台,由音乐学家直接根据巴洛克时期原始手稿进行转录。研究团队从383个LilyPond项目中筛选出347个可编译的乐谱文件,涵盖2,646个乐章,每个文件均通过LilyPond编译器进行语法验证。数据集采用多文件工作空间结构,包含宏定义文件、乐章顺序头文件、乐器声部文件及总谱文件,最终通过解析依赖关系合并为独立建模单元。为确保音乐内容的准确性,开发了批处理验证流程,通过比较解析音符数量与编译后PostScript输出中的音符字形数量,实现了95.7%文件的完美匹配。
特点
该数据集的核心特征在于其音乐学层面的精心策划与结构化元数据体系。作为首个音乐学策展的LilyPond原生数据集,BMdataset不仅提供乐谱文本,还附带了涵盖作曲家、音乐形式、乐器编制、调性、速度、拍号及历史时期的系统化标注。数据集呈现出巴洛克音乐的典型分布特征:维瓦尔第作品占比30.5%,弦乐器主导乐器编制,晚期巴洛克作品占76.4%,协奏曲成为最普遍的音乐形式。其独特价值体现在谱系可追溯性,每个转录乐谱均标注原始手稿参考文献与目录编号,建立了从数字表示到历史源头的完整证据链,避免了社区贡献语料库中常见的编辑性诠释与现代和声改编问题。
使用方法
该数据集为符号音乐表示学习提供了新的实验范式。研究团队基于BMdataset开发了LilyBERT模型,通过扩展CodeBERT词汇表增加115个LilyPond特定标记,确保音乐命令保持语义完整性。使用掩码语言建模目标进行预训练,采用两阶段训练策略:先在PDMX-LilyPond语料上进行连续预训练建立通用理解,再在BMdataset上进行领域特定微调。在线性探测评估中,模型在Mutopia语料库的作曲家与风格分类任务上表现出色,证明小规模专家策展数据集在音乐理解任务上优于大规模噪声语料。数据集支持多种文件格式输出,包括.ly源文件、.midi、.pdf及结构化JSON元数据文件,为音乐生成、风格分析及混合主动编辑等应用提供了坚实基础。
背景与挑战
背景概述
在音乐信息检索与生成人工智能领域,符号音乐表示的研究日益受到重视。BMdataset由帕多瓦大学计算声学中心和波士顿大学的研究团队于2026年提出,是一个音乐学精心策划的LilyPond数据集。该数据集包含347份可编译的LilyPond乐谱,涵盖2646个乐章,均转录自巴洛克时期的原始手稿,并附有作曲家、音乐形式、乐器编制等结构化元数据。BMdataset的创建旨在弥补现有符号音乐数据集中LilyPond格式的空白,为音乐理解任务提供高质量、可追溯的文本化乐谱资源,其音乐学严谨性为符号音乐表示学习设立了新的基准。
当前挑战
BMdataset致力于解决符号音乐理解中乐谱表示与音乐学分析相结合的挑战。传统MIDI数据集丢弃了大量记谱信息,而LilyPond作为文本化雕刻语言,能够编码音乐内容与排版结构,但其在机器学习中的应用尚未充分探索。构建过程中的挑战包括:确保从原始手稿到LilyPond转录的准确性,处理多乐章作品的层次结构,以及为数据集标注全面的音乐学元数据。此外,数据分布存在固有偏差,如作曲家维瓦尔第占比过高、弦乐器主导以及晚期巴洛克作品集中,这些不平衡性可能影响模型训练的泛化能力。
常用场景
经典使用场景
在音乐信息检索领域,符号音乐表示的研究长期依赖MIDI格式,但MIDI舍弃了乐谱的排版细节与层次结构。BMdataset作为首个音乐学专家精心整理的LilyPond数据集,其经典使用场景在于为基于文本的符号音乐表示学习提供高质量基准。该数据集包含347首巴洛克时期作品的LilyPond乐谱,这些乐谱由专家直接从原始手稿转录而成,并附有作曲家、曲式、乐器等结构化元数据。研究者可利用BMdataset训练和评估如LilyBERT等预训练模型,探索LilyPond格式在音乐理解任务中的潜力,从而弥补MIDI在乐谱结构信息保留方面的不足。
解决学术问题
BMdataset主要解决了符号音乐研究中缺乏高质量、音乐学标注的文本格式数据集的问题。传统大规模数据集如Lakh MIDI或PDMX虽数据量庞大,但多为自动转换或社区贡献,存在噪声且缺乏精确的音乐学元数据。BMdataset通过专家转录和严谨的元数据标注,为研究者提供了风格一致、来源可追溯的训练资源。该数据集支持对作曲家分类、音乐风格识别等细粒度音乐理解任务的探究,其实验表明,仅使用9000万令牌的BMdataset进行微调,在作曲家分类任务上优于在150亿令牌的通用语料上持续预训练的模型,证实了高质量小规模数据在特定领域任务中的有效性。
衍生相关工作
围绕BMdataset衍生的经典工作以LilyBERT为代表,它扩展了CodeBERT的词汇表并针对LilyPond语料进行掩码语言建模预训练。这项研究开创性地将代码预训练模型适配于符号音乐领域,验证了LilyPond与编程语言在结构上的相似性可利用于表示学习。相关工作还包括利用该数据集进行分层元数据条件化生成、乐谱语法树(AST)增强编码器的探索,以及将其与更大规模但噪声较多的PDMX语料结合,验证宽泛预训练与领域特定微调的互补性。这些工作为后续基于文本格式的音乐生成、检索与分析研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



