five

PianoCoRe

收藏
arXiv2026-05-08 更新2026-05-10 收录
下载链接:
https://doi.org/10.5334/tismir.333
下载链接
链接失效反馈
官方服务:
资源简介:
PianoCoRe是由斯科尔科沃科学技术研究院构建的大规模钢琴MIDI数据集,整合了多个开源钢琴数据集,包含483位作曲家的5,625首作品共250,046条演奏记录,总时长21,763小时。数据集分为四个层级子集:完整混合源(PianoCoRe-C)、去重质检集(PianoCoRe-B)、音符对齐演奏集(PianoCoRe-A)及高质量对齐子集(PianoCoRe-A*),其中音符对齐子集包含157,207条演奏与1,591份乐谱的精确对齐。数据来源包括传感器钢琴录制和音频转录,通过独创的RAScoP对齐管道优化时序噪声。该数据集专注于解决钢琴表现力建模中数据分散、质量参差的问题,为音乐信息检索和AI钢琴演奏生成提供标准化资源。
提供机构:
斯科尔科沃科学技术研究院
创建时间:
2026-05-08
搜集汇总
数据集介绍
main_image_url
构建方式
音乐信息检索领域,符号化音乐数据集中乐谱与演奏的精准匹配对诸多任务至关重要,然而既有资源往往在作曲家覆盖广度、演奏多样性或音符级对齐精度上存在局限。PianoCoRe数据集应运而生,它通过融合并精炼多个主流开源钢琴语料库而构建。首先,研究团队对来自ASAP、ATEPP、GiantMIDI-Piano、Aria-MIDI及PERiScoPe等来源的超过25万条演奏MIDI数据进行了系统整合,利用基于MIDI内容匹配的实体解析技术,结合优化的动态时间规整算法实现音符级对齐验证,并辅以人工审核与元数据标准化。其次,通过内容驱动的去重策略剔除了近3.4万份重复演奏。最后,设计了两阶段精炼流程:训练一个基于Transformer的MIDI质量分类器以过滤损坏或缺乏表现力的转录,并开发了RAScoP管线用于清理时序异常与插补缺失音符,最终产出了四个层级化子集以满足不同应用场景的需求。
使用方法
PianoCoRe数据集通过层级化子集设计,为不同研究任务提供了即开即用的解决方案。对于大规模分析与自监督预训练,研究者可直接使用PianoCoRe-C或经过质量筛选与去重的PianoCoRe-B,其统一的作曲者/作品/乐章目录结构极大简化了数据加载与分割。针对精细化的表现力建模任务,PianoCoRe-A/A*子集尤为关键:用户可直接利用其中存储的乐谱与演奏MIDI文件,以及经过RAScoP精炼的对齐文件(.npz格式),该对齐文件提供了清洁的音符级时间对应关系与插补标记。具体使用时,可基于数据集中提供的对齐召回率等元数据过滤特定质量的样本;同时,精炼后的演奏MIDI中插补音符通过特殊标记区分,允许建模时将其忽略或作为条件输入。数据集的乐谱与演奏均以标准MIDI格式分发,兼容主流深度学习框架,且通过Zenodo与Hugging Face平台存档,便于获取与复现。
背景与挑战
背景概述
PianoCoRe数据集的诞生源于音乐信息检索领域对大规模、高质量符号化钢琴音乐数据的迫切需求。该数据集由Ilya Borovik于2026年发布,其核心研究问题在于整合并精炼现有开源钢琴MIDI语料库,以克服单一数据集在规模、作曲家覆盖度、演奏风格多样性及音符级对齐精度等方面的局限。通过统一并扩展来自ASAP、ATEPP、GiantMIDI-Piano等知名资源的25万余条演奏数据,PianoCoRe为钢琴演奏分析与计算建模提供了迄今最大规模的公共数据基础。其分层式发布策略兼顾了从大规模预训练到精细化表达建模的多元应用需求,显著推动了钢琴演奏信息检索与生成研究的可复现性与发展。
当前挑战
PianoCoRe项目面临的核心挑战不仅包括解决领域内数据碎片化、音乐信息检索任务中符号化数据缺乏统一标准与跨库信息泄露等关键问题,也体现在构建过程中对异构数据源的整合与质量控制上。具体而言,数据集需要应对MIDI转录作品中普遍存在的重复、失真及缺乏演奏表现力等质量缺陷,同时处理不同语料库间不兼容的元数据命名规范与缺失的音符级对齐信息。为此,研究者研发了基于深度学习的MIDI质量分类器以自动甄别劣质数据,并设计了RAScoP对齐精炼流水线来清理时序噪声、插补缺失音符并同步演奏与乐谱,从而在保证大规模数据量的前提下提升数据集的清洁度与可用性。
常用场景
经典使用场景
在音乐信息检索(MIR)领域,钢琴演奏与乐谱之间的对齐与关系建模是核心挑战之一。PianoCoRe数据集最经典的使用场景在于为大规模、高质量的乐谱-演奏匹配任务提供统一的基准资源。其独特的层级化子集设计(PianoCoRe-C/B/A/A*)使得研究者能够针对不同粒度的问题进行探索,例如,利用PianoCoRe-A子集中的15.7万余条经过精细对齐的性能数据,训练能够自动生成富有表现力的钢琴演奏模型,从而构建从符号乐谱到真实演奏的映射桥梁。
解决学术问题
该数据集直面了现有钢琴MIDI语料库普遍存在的零散化、元数据不统一及跨数据集信息泄露等结构性问题。通过融合并精炼六大公开钢琴语料库,PianoCoRe为学术界提供了一个兼具规模与纯净度的统一研究平台。它有效解决了因数据碎片化导致的模型泛化能力不足、训练过程过拟合等长期困扰研究者的痛点。其衍生的MIDI质量分类器与RAScoP对齐精炼流水线,更为后续研究提供了自动化数据清洗与质量评估的标准化方法论,显著推动了符号音乐处理与表达性演奏建模领域的可重复性研究进程。
实际应用
PianoCoRe在工业级与艺术级应用场景中均展现出极高的实用价值。在实际应用层面,该数据集可直接赋能数字音乐工作站中的智能演奏辅助系统,帮助音乐制作人或钢琴学习者自动生成具有特定风格诠释的MIDI演奏。此外,其高质量的乐谱-演奏对齐数据为虚拟钢琴演奏家与交互式音乐教育软件提供了坚实的数据基石,使得算法能够模仿大师级演奏家的触键力度、节奏微移与踏板运用,从而让机器生成的音乐更富情感与人性化质感。
数据集最近研究
最新研究方向
在音乐信息检索领域,PianoCoRe数据集的问世标志着符号音乐数据整合与精细化处理迈入了全新阶段。前沿研究方向聚焦于利用该数据集的大规模、高质量特性,推动表达性钢琴演奏建模的突破性进展,尤其是通过条件流匹配等生成式模型实现从乐谱到演奏的细腻映射。当前热点事件包括基于PianoCoRe训练的渲染模型在未见曲目上展现出显著增强的鲁棒性,这得益于数据集中广泛覆盖的483位作曲家与21,763小时的演奏时长,为消除数据碎片化和信息泄露问题提供了统一基准。其分层子集设计(如PianoCoRe-A*)精准服务于性能分析、预训练及对齐任务,深刻影响了深度学习驱动的音乐表现力研究范式。
相关研究论文
  • 1
    PianoCoRe: Combined and Refined Piano MIDI Dataset斯科尔科沃科学技术研究院 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作