chopin-comp-midi
收藏Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/anusfoil/chopin-comp-midi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2015年第18届国际肖邦钢琴比赛(华沙)初赛阶段130位参赛者的钢琴MIDI转录,用于成对排名评估。每位参赛者提交了约30分钟的演奏,音频来自肖邦研究所官方YouTube频道,并通过钢琴转录模型转换为MIDI格式。数据集任务定义为:给定两段演奏,预测哪位参赛者在比赛中晋级更远,这是一个成对排名问题(机会准确率为0.50)。数据集包含130个MIDI文件(每位参赛者一个),以及训练/验证/测试集的划分和每位参赛者的元数据。元数据包括参赛者姓名、国家代码、比赛标签(0-4分)、是否通过初赛、YouTube视频ID、标题、URL以及音频到MIDI的对齐置信度分数。数据集分为90个训练样本、20个验证样本和20个测试样本(按轮次分数分层,种子为42)。数据集适用于音频分类任务,特别是音乐、钢琴、MIDI和排名相关的研究。数据集发布在CC BY 4.0许可下,使用时需引用比赛。
创建时间:
2026-02-28
原始信息汇总
Chopin Piano Competition 2015 – Preliminary Round MIDI 数据集概述
数据集基本信息
- 数据集名称:Chopin Piano Competition 2015 – Preliminary Round MIDI
- 发布者/存储库:anusfoil/chopin-comp-midi
- 许可证:CC BY 4.0
- 任务类别:音频分类
- 主要标签:音乐、钢琴、MIDI、比赛、排名、肖邦
- 语言:英语
- 数据规模:小于1K样本
- 官方描述:第18届国际肖邦钢琴比赛(华沙,2015年)初赛阶段所有130位参赛者的钢琴MIDI转录,附带用于成对排名评估的比赛标签。
数据集内容与结构
- 核心数据:包含130个MIDI文件,每位参赛者一个文件,位于
data/{performer_slug}/{title}.mid。 - 元数据文件:
metadata/splits.csv:包含训练/验证/测试集划分、MIDI文件相对路径以及比赛轮次得分标签(0-4)。metadata/metadata_raw.csv:包含每位参赛者的详细信息,如姓名、国家、轮次得分、是否通过初赛、来源YouTube视频信息及对齐置信度分数。
- 数据划分:90个训练样本,20个验证样本,20个测试样本(按轮次得分分层划分,种子为42)。
任务定义
- 主要任务:给定两个表演(MIDI),预测哪位参赛者在比赛中晋级得更远。
- 任务类型:成对排序问题(二元分类)。
- 随机准确率:0.50。
标签说明
- 轮次得分(label):0-4的整数。
- 0:未通过初赛。
- 1-4:通过了初赛;数值越高,代表在比赛中晋级得越远。
来源与制作
- 音频来源:肖邦研究所官方YouTube频道(CC BY许可)。
- MIDI生成:使用钢琴转录模型从音频自动转录为MIDI。
- 比赛结果:来源于 https://chopincompetition.pl 公开信息。
使用方式
-
通过EVPMR库加载: python from evpmr import ChopinCompTask task = ChopinCompTask() split = task.load_split(hf_download=True)
-
通过Hugging Face Hub手动下载: python from huggingface_hub import snapshot_download path = snapshot_download("anusfoil/chopin-comp-midi", repo_type="dataset")
基准测试结果(EVPMR)
使用冻结的Aria-medium编码器(每窗口约10-15秒)进行评估:
- 线性探针(基于拼接嵌入的二元逻辑回归):成对准确率 0.562,反对称性 1.000。
- 注意力探针(交叉注意力,I-JEPA风格):成对准确率 0.689,反对称性 0.992。
- 完美排序器的反对称性得分:1.0。
相关资源
- 配套基准:EVPMR(钢琴MIDI表示评估),代码库位于 https://github.com/anusfoil/eval-piano-midi-repr。
- 使用的编码器:Aria-medium(https://huggingface.co/loubb/aria-medium-embedding)。
- 官方比赛页面:https://chopincompetition.pl/en/。
- 音频来源频道:https://www.youtube.com/@ChopinInstitute。
- 许可证链接:https://creativecommons.org/licenses/by/4.0/。
搜集汇总
数据集介绍
构建方式
在音乐信息检索领域,肖邦国际钢琴比赛作为权威赛事,为研究提供了珍贵的表演数据。本数据集基于第十八届肖邦国际钢琴比赛(2015年)预赛阶段的130位参赛者表演构建,首先从肖邦研究所官方YouTube频道获取音频源,随后采用自动化钢琴转录模型将音频转换为MIDI格式。数据组织以每位演奏者为单位,包含约30分钟的独奏录音转录结果,并辅以详细的元数据标注,如比赛轮次得分与晋级状态,确保了数据来源的可靠性与结构化特征。
特点
该数据集的核心特点在于其专注于钢琴表演的成对排序任务,为音乐表现力评估提供了新颖的基准。数据集包含130个MIDI文件,每个文件对应一位参赛者的完整表演,并标注了从0到4的竞赛标签,其中较高分数代表在比赛中晋级更远。数据划分经过分层抽样,包含90个训练样本、20个验证样本与20个测试样本,确保了评估的统计稳健性。此外,元数据中提供了音频对齐置信度得分与原始视频信息,增强了数据的可追溯性与多模态研究潜力。
使用方法
为促进音乐表示学习的研究,数据集设计为与EVPMR基准配套使用,支持自动化下载与任务加载。用户可通过Python接口调用`ChopinCompTask`类直接加载数据划分,或使用Hugging Face Hub手动下载原始MIDI文件与元数据。典型应用场景涉及训练模型预测两位演奏者的比赛排名,即基于MIDI序列嵌入进行成对分类,基线研究已展示线性探针与注意力机制在此任务上的有效性,为后续探索钢琴表演的细微差异提供了可复现的框架。
背景与挑战
背景概述
在音乐信息检索领域,对钢琴演奏表现进行客观评估一直是一项复杂且富有挑战性的任务。Chopin Piano Competition 2015 – Preliminary Round MIDI数据集由相关研究团队于近年构建,旨在为钢琴演奏的自动排名提供结构化数据支持。该数据集的核心研究问题聚焦于如何通过机器学习模型,基于MIDI转录数据预测钢琴家在肖邦国际钢琴比赛中的晋级表现,即解决演奏表现的成对排序问题。其创建为音乐表现力计算分析、自动评分系统开发等研究方向提供了宝贵的基准资源,推动了音乐与人工智能交叉领域的实证研究进展。
当前挑战
该数据集旨在解决的领域挑战在于音乐表演评估的主观性与复杂性。具体而言,如何从钢琴演奏的MIDI数据中自动提取能够有效区分演奏者艺术水准与比赛排名的特征,并构建稳健的排序模型,这是一个尚未完全解决的难题,涉及对音乐表现力、技术精度等多维度信息的量化。在数据构建过程中,挑战主要源于数据获取与处理的复杂性:原始音频来源于公开视频,需通过自动钢琴转录模型转换为MIDI格式,此过程可能引入转录误差;同时,数据标注完全依赖于公开的比赛结果,其本身是离散的序数标签,且样本量有限,这为模型训练与泛化带来了固有困难。
常用场景
经典使用场景
在音乐信息检索领域,该数据集为钢琴演奏的成对排序评估提供了标准化的基准。研究者利用这些MIDI转录数据,构建模型以预测两位表演者在肖邦国际钢琴比赛中的晋级情况。通过对比不同演奏者的音乐表现,模型学习捕捉细微的演奏差异,从而实现对演奏质量的自动化排名。这一场景不仅推动了音乐表现力计算分析的发展,也为音乐比赛评审的客观性提供了数据支持。
解决学术问题
该数据集有效解决了音乐表现力量化评估中的关键难题,即如何从音频或符号化音乐数据中自动识别演奏质量差异。通过提供带有明确比赛晋级标签的成对样本,它支持了音乐信息检索中排序学习任务的研究,促进了基于深度学习的音乐表征方法的发展。其意义在于为音乐表演分析建立了可重复的评估框架,推动了计算音乐学与人工智能的交叉融合,为客观评价艺术表现提供了科学依据。
衍生相关工作
围绕该数据集衍生的经典工作包括EVPMR基准测试,它系统评估了不同钢琴MIDI表征方法的排序性能。研究如Aria-medium等冻结编码器的应用,探索了窗口化编码策略在音乐片段分析中的有效性。后续工作进一步探究了交叉注意力机制等先进模型架构,提升了成对排序的准确性与一致性。这些研究共同深化了对音乐语义表征的理解,并为音乐人工智能的模型设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成



