The Rach3 MIDI Dataset
收藏The Rach3 MIDI 数据集概述
数据集简介
The Rach3 MIDI Dataset 是一个包含四位不同钢琴家四年间钢琴排练会话的 MIDI 录音集合。该数据集记录了钢琴家学习新曲目以及练习熟悉曲目的进展过程,所有内容均属于西方古典音乐传统。数据集总共包含 3152 个 MIDI 文件,并且为数据集中的许多曲目提供了相应的 MusicXML 格式乐谱。 数据集还包含其中一位钢琴家的一场独奏会录音。独奏会是对排练曲目库中部分选定曲目的现场表演。举行独奏会的目的是激励和推动以现场表演为目标的排练。
四位钢琴家根据以下表演者 ID 进行标记:
- p1(高级)
- p2(高级)
- p3(初级)
- p4(高级)
更多信息,包括关于此数据集的初步分析详情,可访问 https://r3midi.rach3project.com/。
文件夹结构
-
rehearsals(文件夹):
- 此文件夹包含四位钢琴家的所有排练会话。该文件夹进一步按钢琴家 ID(p1、p2、p3 和 p4)细分。在每个钢琴家的子文件夹中,是一个 MIDI 文件集合,每个文件对应在特定日期的特定会话中练习的特定曲目。
-
scores(文件夹):
- 此文件夹是所有可用 MusicXML 格式乐谱的集合。
-
recitals(文件夹):
- 与排练文件夹类似,独奏会文件夹包含对应每位钢琴家独奏会会话的子文件夹。这进一步细分为对应每个独奏会会话的子文件夹。在此初始版本中,仅录制了钢琴家 1(p1)的一场独奏会会话。
-
List_of_pieces_with_scores.csv:
- 此 CSV 文件提供了数据集中排练曲目的表格,包含以下列:
- Composer:曲目的作曲家。
- Work Name:曲目的名称。
- Movement/Section/Piece:与特定作品乐章、部分或曲目编号相关的进一步附加信息。
- ID:数据集中每个排练曲目的特殊 12 位字母数字标识符。
- Score Available?:如果此特定曲目的乐谱在数据集中可用,则相应条目标记为“是”,否则为“否”。
- 此 CSV 文件提供了数据集中排练曲目的表格,包含以下列:
-
List_of_pieces_with_scores.md:
- List_of_pieces_with_scores.csv 的可读版本。
文件命名约定
The Rach3 MIDI Dataset 遵循标准化的文件命名约定,允许识别数据集中每个排练/表演的曲目。这样做是为了让用户能够轻松地从文件名中识别表演者、日期和曲目。
-
排练文件命名约定:每个排练 MIDI 文件总共包含 25 个字母数字字符(不包括“.mid”文件扩展名),描述了该特定排练曲目的所有必要信息:
- 前两个字符指代数据集中的钢琴家:p1、p2、p3 或 p4。
- 接下来的 6 位数字对应排练日期,格式为 YYMMDD。
- 日期后跟一个数字,对应特定日期上的排练会话编号。排练会话定义为钢琴家视为一次“坐席”的时间段,在此期间他们连续练习一定数量的曲目/练习。给定日期的第一个会话分配编号“0”,第二个会话分配编号“1”,依此类推。
- 接下来的两个数字对应特定日期特定会话中练习的曲目编号。第一首曲目分配编号“01”,接着是“02”,依此类推。
- 文件名的最后 12 个字母数字字符对应曲目 ID,它是数据集中每个曲目的唯一标识符。前 6 个字符有助于识别曲目的作曲家,而后 6 个字符有助于识别音乐作品及其乐章/部分。每个 12 位字母数字 ID 列在 List_of_pieces_with_scores.csv 的“ID”列中。
-
乐谱文件命名约定:每个乐谱文件在文件名中包含 12 个字母数字字符(除了“.musicxml”文件扩展名),这些字符对应 List_of_pieces_with_scores.csv 中描述的曲目 ID。
-
独奏会文件命名约定:独奏会文件遵循与排练文件相同的命名约定,除了会话编号对应的数字(文件名中的第 9 个字符)被字母“r”替换。
注意事项
少数排练曲目尚未提供 MusicXML 乐谱文件。此类文件已在 List_of_pieces_with_scores.csv 文件中标记。 一些排练曲目,例如莫扎特的 12 首变奏曲以及舒曼的《青少年曲集》,包含在一个 MIDI 文件中,且未分开。莫扎特 12 首变奏曲的完整乐谱(曲目 ID:mozart265v12)在一个乐谱文件中可用。 然而,舒曼《青少年曲集》的完整乐谱(曲目 ID:schumajugn00)不可用。但是,提供了舒曼《青少年曲集》每个单独曲目的乐谱文件。
引用此工作
如果使用该数据集,我们将感谢您引用我们的工作! bibtex @inproceedings{rach3_midi_dataset, address = {Daejeon, South Korea}, title = {Enabling {Empirical} {Analysis} of {Piano} {Performance} {Rehearsal} with the {Rach3} {MIDI} {Dataset}}, language = {en}, booktitle = {Proceedings of the 26th {International} {Society} for {Music} {Information} {Retrieval} {Conference} ({ISMIR} 2025)}, author = {Morsi, Alia and Chiruthapudi, Suhit and Peter, Silvan and Pilkov, Ivan and Bishop, Laura and Maezawa, Akira and Serra, Xavier and Cancino-Chacón, Carlos}, address = {Daejeon, South Korea}, year = {2025} }
致谢
这项工作得到了奥地利科学基金(FWF),资助协议 PAT 8820923(Rach3:一种研究钢琴排练的计算方法)、欧洲研究理事会(ERC)根据欧盟 Horizon 2020 研究与创新计划,资助协议 No.~101019375(Whither Music?),以及挪威研究委员会通过其卓越中心计划,项目编号 262762 的支持。




