MusiCorpus

Name: MusiCorpus
Creator: 计算机视觉中心; 巴塞罗那自治大学·计算机科学系; 巴塞罗那自治大学·艺术与音乐学系; 查尔斯大学·形式与应用语言学研究所; 摩拉维亚图书馆
Published: 2026-05-18 22:07:44
License: 暂无描述

arXiv2026-05-18 更新2026-05-20 收录

下载链接：

https://pages.cvc.uab.es/musicscores/

下载链接

链接失效反馈

官方服务：

资源简介：

MusiCorpus是由计算机视觉中心、巴塞罗那自治大学及摩拉维亚图书馆等机构联合创建的大型历史手写乐谱数据集，旨在解决光学音乐识别领域缺乏真实训练数据的关键瓶颈。该数据集包含1,309页源自欧洲档案机构的原始乐谱扫描图像，涵盖管弦乐谱、分谱及钢琴谱等多种类型，并提供了MusicXML转录文本与符号级标注，数据总量达数十万音乐符号。其创建过程通过与多个文化遗产机构合作，采用专家手工标注与标准化编码流程，确保了数据的多样性与学术严谨性。本数据集主要应用于训练和评估端到端及基于目标检测的光学音乐识别系统，以推动历史音乐文献的自动化转录与数字化保存，为音乐学研究和文化遗产保护提供关键技术支撑。

提供机构：

计算机视觉中心; 巴塞罗那自治大学·计算机科学系; 巴塞罗那自治大学·艺术与音乐学系; 查尔斯大学·形式与应用语言学研究所; 摩拉维亚图书馆

创建时间：

2026-05-18

搜集汇总

数据集介绍

构建方式

MusiCorpus的构建基于两个数据采集站点——Dolores与OmniOMR——分别与加泰罗尼亚档案馆网络和摩拉维亚图书馆合作，从真实馆藏中选取代表性乐谱页面。Dolores站点采用快速粗略的手写笔标注策略，音乐学家使用MuseScore逐系统转录并利用Android应用粗绘符号多边形，最终生成1,209页含MusicXML转录与MSCOCO格式目标检测标注的数据。OmniOMR站点则追求像素级精确，依托MuNG Studio工具对100页乐谱进行精细符号掩膜与完整音乐符号图标注，并经多轮交叉校验确保质量。两部分数据均遵循统一目录结构，提供页面、系统、谱行等多层级分割，并附有详尽元数据描述来源与记谱特征。

使用方法

研究者可将MusiCorpus直接用于训练和评估光学音乐识别模型。对于端到端识别，可使用页面、系统或谱行层级的MusicXML转录作为目标序列，配合对应图像进行序列到序列学习。对于基于目标检测的管线，可利用MSCOCO格式的符号边界框与掩膜训练检测器，再借助MuNG格式的图谱结构组装完整音乐语义。数据集提供了固定的训练—验证—测试划分，OmniOMR子集还包含书手独立的严格划分以测试泛化能力。通过统一的musicorpus.json标识文件，其他数据集可轻松扩展至本格式，实现跨数据集的联合训练与评估。

背景与挑战

背景概述

在文化遗产数字化浪潮的推动下，全球记忆机构——图书馆、博物馆与档案馆——已大规模扫描保存了大量历史乐谱。然而，光学音乐识别（OMR）领域，尤其是针对西方通用音乐记谱法（CWMN）中的手写与历史乐谱，始终未能实现突破性的机器可读转化。深层原因在于，现有深度学习系统严重缺乏在真实条件下训练所需的规模化数据集。为填补这一空白，由巴塞罗那计算机视觉中心、查尔斯大学形式与应用语言学研究所及摩拉维亚图书馆等多家机构的研究人员，在Pau Torras、Jiří Mayer、Jan Hajič jr.与Alicia Fornés等人的主导下，于2026年共同发布了MusiCorpus数据集。该数据集精心收录了1,309页以手写为主的珍贵历史乐谱，并提供了MusicXML转录与符号级标注，极大地推动了OMR从实验性研究迈向现实应用的进程。

当前挑战

MusiCorpus致力于应对的核心挑战在于两个方面。首先，从领域问题层面看，尽管深度学习已在图像分类等领域硕果累累，但光学音乐识别（OMR）面对高度复杂且风格迥异的CWMN手写乐谱时依然步履蹒跚，缺乏能在大型真实馆藏中稳定运行的系统。现有方法即使处理相对简单的乐谱仍存在极高错误率，实用化进展缓慢。其次，在数据集构建过程中，团队面临了前所未有的工程挑战：手工转录一页复杂乐谱需耗费1.5至3小时，而符号级标注则需高度专业的知识与繁重的人力；为平衡标注精度与数据规模，团队采取了两种截然不同的策略——来自OmniOMR站点的像素级精确标注与来自Dolores站点的快速粗粒度标注，并需确保两者的标准化兼容，这无疑对数据格式设计、流程管控及质量校验提出了极高要求。

常用场景

经典使用场景

在音乐文档分析与光学乐谱识别领域，MusiCorpus数据集的核心用途在于为历史手写乐谱的自动转录提供训练与评测基准。该数据集汇集了来自多个记忆机构的1,309页真实馆藏乐谱，涵盖了从18世纪中叶至20世纪中叶的多种手写与印刷样式，并以MusicXML格式提供页面级与系统级的完整转录，同时辅以MSCOCO格式的符号级目标检测标注。这使得研究者能够同时开展端到端序列转录模型与基于目标检测的管线模型的训练与对比实验，从而系统性地评估不同技术路线在历史手写乐谱这一极具挑战性场景下的表现。

解决学术问题

MusiCorpus数据集直面光学乐谱识别领域中长期存在的关键瓶颈：真实历史手写乐谱数据资源的极度匮乏。此前，绝大多数公开的OMR数据集或源于数字渲染的合成乐谱，或局限于小规模、二值化且缺乏完整转录的人工样本，导致深度学习模型难以适应真实馆藏中纸张老化、墨水渗化、书写风格变异等复杂状况。通过提供首批大规模、多样化的真实手写乐谱及其精确标注，MusiCorpus使得研究者得以探究模型在跨馆藏、跨时代、跨书写者的泛化能力，并首次实现了端到端识别与基于检测的识别方法在同一标准下的公平比较，为OMR领域从实验性研究向实际应用迈进了关键一步。

实际应用

在实际应用层面，MusiCorpus数据集精准对焦于文化遗产数字化保护的迫切需求。全球各地的图书馆、档案馆与博物馆中保存着数以百万计的历史乐谱手稿，其手动转录费时费力（每页需1.5至3小时），严重阻碍了音乐学从定性分析走向大规模定量研究。基于MusiCorpus训练的OMR系统可被部署于记忆机构，自动完成馆藏乐谱的数字化转录，将扫描图像直接转化为可搜索、可编辑、可播放的数字音乐文件（如MusicXML），从而支持音乐学家进行风格分析、作曲家校勘、作品目录编撰等研究工作，极大提升文化遗产的可访问性与研究效率。

数据集最近研究