five

The Rach3 MIDI Dataset

收藏
github2025-09-23 更新2025-09-24 收录
下载链接:
https://github.com/Rach3Project/rach3_midi_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Rach3 MIDI数据集是一个包含四位不同钢琴家四年间钢琴排练录音的MIDI记录集合,记录了钢琴家学习新曲目以及练习熟悉曲目的过程,全部属于西方古典音乐传统。数据集总共包含3152个MIDI文件,以及许多曲目对应的MusicXML格式乐谱。数据集还包含其中一位钢琴家的一场演奏会录音。

The Rach3 MIDI Dataset is a collection of MIDI recordings capturing piano rehearsal sessions from four distinct pianists over a four-year period. It documents the process in which these pianists learned new musical works and practiced familiar repertoire, with all materials falling within the Western classical music tradition. The dataset contains a total of 3,152 MIDI files, along with MusicXML-format sheet music corresponding to many of the included pieces. Additionally, it includes a complete concert recording from one of the four pianists.
创建时间:
2025-09-22
原始信息汇总

The Rach3 MIDI 数据集概述

数据集简介

The Rach3 MIDI Dataset 是一个包含四位不同钢琴家四年间钢琴排练会话的 MIDI 录音集合。该数据集记录了钢琴家学习新曲目以及练习熟悉曲目的进展过程,所有内容均属于西方古典音乐传统。数据集总共包含 3152 个 MIDI 文件,并且为数据集中的许多曲目提供了相应的 MusicXML 格式乐谱。 数据集还包含其中一位钢琴家的一场独奏会录音。独奏会是对排练曲目库中部分选定曲目的现场表演。举行独奏会的目的是激励和推动以现场表演为目标的排练。

四位钢琴家根据以下表演者 ID 进行标记:

  • p1(高级)
  • p2(高级)
  • p3(初级)
  • p4(高级)

更多信息,包括关于此数据集的初步分析详情,可访问 https://r3midi.rach3project.com/。

文件夹结构

  1. rehearsals(文件夹):

    • 此文件夹包含四位钢琴家的所有排练会话。该文件夹进一步按钢琴家 ID(p1、p2、p3 和 p4)细分。在每个钢琴家的子文件夹中,是一个 MIDI 文件集合,每个文件对应在特定日期的特定会话中练习的特定曲目。
  2. scores(文件夹):

    • 此文件夹是所有可用 MusicXML 格式乐谱的集合。
  3. recitals(文件夹):

    • 与排练文件夹类似,独奏会文件夹包含对应每位钢琴家独奏会会话的子文件夹。这进一步细分为对应每个独奏会会话的子文件夹。在此初始版本中,仅录制了钢琴家 1(p1)的一场独奏会会话。
  4. List_of_pieces_with_scores.csv

    • 此 CSV 文件提供了数据集中排练曲目的表格,包含以下列:
      1. Composer:曲目的作曲家。
      2. Work Name:曲目的名称。
      3. Movement/Section/Piece:与特定作品乐章、部分或曲目编号相关的进一步附加信息。
      4. ID:数据集中每个排练曲目的特殊 12 位字母数字标识符。
      5. Score Available?:如果此特定曲目的乐谱在数据集中可用,则相应条目标记为“是”,否则为“否”。
  5. List_of_pieces_with_scores.md

    • List_of_pieces_with_scores.csv 的可读版本。

文件命名约定

The Rach3 MIDI Dataset 遵循标准化的文件命名约定,允许识别数据集中每个排练/表演的曲目。这样做是为了让用户能够轻松地从文件名中识别表演者、日期和曲目。

  1. 排练文件命名约定:每个排练 MIDI 文件总共包含 25 个字母数字字符(不包括“.mid”文件扩展名),描述了该特定排练曲目的所有必要信息:

    • 前两个字符指代数据集中的钢琴家:p1、p2、p3 或 p4。
    • 接下来的 6 位数字对应排练日期,格式为 YYMMDD。
    • 日期后跟一个数字,对应特定日期上的排练会话编号。排练会话定义为钢琴家视为一次“坐席”的时间段,在此期间他们连续练习一定数量的曲目/练习。给定日期的第一个会话分配编号“0”,第二个会话分配编号“1”,依此类推。
    • 接下来的两个数字对应特定日期特定会话中练习的曲目编号。第一首曲目分配编号“01”,接着是“02”,依此类推。
    • 文件名的最后 12 个字母数字字符对应曲目 ID,它是数据集中每个曲目的唯一标识符。前 6 个字符有助于识别曲目的作曲家,而后 6 个字符有助于识别音乐作品及其乐章/部分。每个 12 位字母数字 ID 列在 List_of_pieces_with_scores.csv 的“ID”列中。
  2. 乐谱文件命名约定:每个乐谱文件在文件名中包含 12 个字母数字字符(除了“.musicxml”文件扩展名),这些字符对应 List_of_pieces_with_scores.csv 中描述的曲目 ID。

  3. 独奏会文件命名约定:独奏会文件遵循与排练文件相同的命名约定,除了会话编号对应的数字(文件名中的第 9 个字符)被字母“r”替换。

注意事项

少数排练曲目尚未提供 MusicXML 乐谱文件。此类文件已在 List_of_pieces_with_scores.csv 文件中标记。 一些排练曲目,例如莫扎特的 12 首变奏曲以及舒曼的《青少年曲集》,包含在一个 MIDI 文件中,且未分开。莫扎特 12 首变奏曲的完整乐谱(曲目 ID:mozart265v12)在一个乐谱文件中可用。 然而,舒曼《青少年曲集》的完整乐谱(曲目 ID:schumajugn00)不可用。但是,提供了舒曼《青少年曲集》每个单独曲目的乐谱文件。

引用此工作

如果使用该数据集,我们将感谢您引用我们的工作! bibtex @inproceedings{rach3_midi_dataset, address = {Daejeon, South Korea}, title = {Enabling {Empirical} {Analysis} of {Piano} {Performance} {Rehearsal} with the {Rach3} {MIDI} {Dataset}}, language = {en}, booktitle = {Proceedings of the 26th {International} {Society} for {Music} {Information} {Retrieval} {Conference} ({ISMIR} 2025)}, author = {Morsi, Alia and Chiruthapudi, Suhit and Peter, Silvan and Pilkov, Ivan and Bishop, Laura and Maezawa, Akira and Serra, Xavier and Cancino-Chacón, Carlos}, address = {Daejeon, South Korea}, year = {2025} }

致谢

这项工作得到了奥地利科学基金(FWF),资助协议 PAT 8820923(Rach3:一种研究钢琴排练的计算方法)、欧洲研究理事会(ERC)根据欧盟 Horizon 2020 研究与创新计划,资助协议 No.~101019375(Whither Music?),以及挪威研究委员会通过其卓越中心计划,项目编号 262762 的支持。

搜集汇总
数据集介绍
main_image_url
构建方式
在钢琴演奏研究领域,Rach3 MIDI数据集的构建过程体现了对音乐排练行为的系统性记录。该数据集通过四年的持续采集,收录了四位不同水平钢琴家的排练会话,涵盖新曲目学习与熟悉曲目练习的全过程。采用MIDI格式记录每次排练的演奏细节,并辅以MusicXML格式的乐谱文件,确保数据可追溯性与音乐结构的完整性。文件命名采用25位字符编码体系,精确标识演奏者、日期、会话序列及曲目编号,为后续分析提供结构化基础。
特点
Rach3 MIDI数据集的独特价值在于其动态记录钢琴家艺术成长轨迹的纵向特性。数据集包含3152个MIDI文件,不仅覆盖日常排练场景,还收录了正式音乐会的现场演奏数据,形成从练习到演出的完整闭环。四位标注为初级或高级水平的钢琴家样本,为研究演奏技巧演进提供了对比维度。部分曲目如莫扎特变奏曲采用复合文件存储,既保留作品整体性,又通过独立乐谱支持精细化分析,这种设计平衡了音乐作品的语境完整性与研究可操作性。
使用方法
研究者可通过解析标准化命名的MIDI文件,提取演奏时序、力度、踏板等参数,结合配套乐谱进行音乐结构对齐分析。数据集的三级文件夹架构明确区分排练、乐谱与音乐会数据,支持针对特定演奏阶段的研究。利用List_of_pieces_with_scores.csv中的曲目元数据,可快速定位目标作品及其乐谱可用性。对于复合曲目文件,建议参照标注说明结合子章节乐谱进行分段研究,以确保分析粒度与音乐语义的匹配度。
背景与挑战
背景概述
Rach3 MIDI数据集由奥地利科学基金等机构资助,于2025年由多国研究团队在ISMIR会议上正式发布,旨在通过记录四位钢琴演奏者长达四年的排练过程,构建一个涵盖3152个MIDI文件及配套乐谱的数据库。该数据集聚焦于西方古典音乐传统中钢琴演奏的学习与排练行为,不仅捕捉了新手与高级演奏者掌握新曲目的演进轨迹,还包含现场演奏会记录,为音乐信息检索领域提供了首个系统化研究钢琴排练动态的实证基础。
当前挑战
数据集构建面临双重挑战:在领域问题层面,需解决钢琴演奏动态分析中排练行为建模的复杂性,如个体差异对演奏风格的影响及现场演奏与排练的关联性;在技术实现层面,需统一多源MIDI数据的命名规范与元数据对齐,并处理部分作品(如舒曼《少年曲集》)乐谱缺失或合并录制导致的标注困难,同时确保时间跨度长达四年的数据采集一致性。
常用场景
经典使用场景
在音乐信息检索领域,Rach3 MIDI数据集为研究钢琴演奏学习过程提供了独特视角。该数据集通过记录四位钢琴家长达四年的排练会话,捕捉了从初学者到高级演奏者在练习新曲目和熟悉作品时的动态演进过程。其经典应用场景包括分析演奏技巧的改进模式、比较不同水平演奏者的练习策略,以及探索音乐表达随时间的变化规律。这些MIDI文件与MusicXML乐谱的对应关系,进一步支持了演奏表现与乐谱结构的对齐分析。
实际应用
在实践层面,该数据集为智能音乐教育系统开发提供了核心训练资源。教育科技公司可基于排练数据构建个性化练习推荐算法,通过比对初学者与高级演奏者的练习模式,生成针对性的技巧提升方案。音乐治疗领域则可利用这些数据建立演奏能力评估指标,辅助康复训练的效果监测。此外,自动伴奏系统能够学习不同演奏风格的细微差异,实现更自然的人机交互表演。
衍生相关工作
该数据集已催生多项创新研究,例如在ISMIR 2025会议上发表的原始论文提出了钢琴排练分析的计算框架。后续研究扩展了演奏技巧评估模型,通过机器学习方法识别练习模式中的关键转折点。另有工作结合该数据集与认知科学理论,构建了音乐学习阶段的预测系统。这些衍生成果共同推进了表演信息检索技术的发展,为数字人文领域的跨学科研究建立了重要桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作