ATEPP
收藏github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/tangjjbetsy/ATEPP
下载链接
链接失效反馈官方服务:
资源简介:
ATEPP是一个由技艺高超的钢琴家演奏的表达性钢琴表演数据集。该数据集包含11674场表演(约1000小时),由49位钢琴家演奏,涵盖了25位作曲家的1595个乐章。所有MIDI文件均来自现有钢琴表演音频录音的钢琴转录。约半数曲目还提供MusicXML格式的乐谱。数据集按作曲和乐章组织和排列,以便进行比较研究。
ATEPP is a dataset of expressive piano performances by highly skilled pianists. The dataset comprises 11,674 performances (approximately 1,000 hours), performed by 49 pianists, covering 1,595 movements by 25 composers. All MIDI files are derived from piano transcriptions of existing audio recordings of piano performances. Approximately half of the pieces also provide sheet music in MusicXML format. The dataset is organized and arranged by composition and movement to facilitate comparative studies.
创建时间:
2022-07-28
原始信息汇总
数据集概述
ATEPP是一个包含11674个表现(约1000小时)的表达性钢琴表演数据集,由49位钢琴家演奏,涵盖1595个由25位作曲家创作的乐章。所有MIDI文件均来自现有钢琴表演音频录音的钢琴转录。约半数曲目提供MusicXML格式的乐谱。数据集按作曲和乐章组织和排列,便于进行比较研究。
数据集版本信息
-
Version-1.2 (最新版本)
- 修复了1264个被标记为低质量的音频,这些音频可能导致转录错误。
- 1436个音频被标记为含有背景噪音。
- 7个包含多个乐章的音频被切割并重新标记。
- 220个表演的作曲标签错误得到纠正。
- 新增
quality和repetition特征于元数据中。
-
Version-1.1
- 通过音频指纹匹配检测并移除了65个重复音频及其对应的转录MIDI文件。
-
Version-1.0
- 包含11742个表演,1007小时,1580个乐章,由25位作曲家创作,49位表演者演奏。
- 43%的曲目附有乐谱。
数据集统计
- 总表演数:11674
- 总乐章数:1595
- 作曲家数:25
- 表演者数:49
- 数据集大小:约1000小时
数据集使用建议
- 使用时建议过滤掉标记为
low quality和background noise的MIDI文件。 - 对于包含掌声的现场表演,标记为
applause。 - 高质量现场录音标记为
high quality。
搜集汇总
数据集介绍

构建方式
ATEPP数据集通过自动转录现有钢琴演奏录音的方式构建,涵盖了49位钢琴家的11674次演奏,总时长约1000小时,涉及25位作曲家的1595个乐章。数据集中的MIDI文件均源自这些录音的钢琴转录,同时约有半数的曲目提供了MusicXML格式的乐谱。数据集按照作曲家和乐章进行组织和排列,便于进行比较研究。
特点
ATEPP数据集的显著特点在于其广泛的音乐表现力和高质量的转录数据。数据集不仅包含了多种作曲家的作品,还通过标注音频质量(如低质量、背景噪音等)和演奏特征(如重复部分),提供了丰富的元数据信息。此外,数据集还特别标注了现场演奏中的掌声和高质量录音,增强了数据集在音乐表现研究中的应用价值。
使用方法
使用ATEPP数据集时,用户需先同意免责声明并下载最新版本的数据集。数据集提供了MIDI和MusicXML格式的文件,适合用于音乐表现分析、自动转录模型训练等研究。用户可通过提供的代码和模型检查点,对自定义音频进行转录推理,具体操作可参考提供的Python脚本。此外,数据集的元数据中包含音频质量信息,用户可根据需求筛选使用。
背景与挑战
背景概述
ATEPP(A Dataset of Automatically Transcribed Expressive Piano Performances)是由多位著名钢琴家演奏的表现性钢琴演奏数据集,涵盖了11674个演奏片段,时长约1000小时,涉及25位作曲家的1595个乐章。该数据集的核心研究问题在于通过自动转录技术,将现有的钢琴演奏录音转化为MIDI文件,并提供部分乐谱的MusicXML格式,以便进行比较研究。ATEPP的创建旨在推动音乐表现力分析、自动音乐转录等领域的研究,其丰富的数据和多样的演奏风格为相关领域的研究提供了宝贵的资源。
当前挑战
ATEPP数据集在构建过程中面临多项挑战。首先,自动转录模型在处理低质量录音(如现场演奏或老旧录音)时容易产生错误转录,导致数据集中的部分MIDI文件存在质量问题。其次,数据集中存在部分录音包含多个乐章的组合,需进行分割和重新标注。此外,部分录音的背景噪音和掌声等问题也增加了数据处理的复杂性。最后,数据集的元数据中存在错误标签,需通过人工验证进行修正。这些挑战要求在数据使用时进行严格的筛选和处理,以确保研究的准确性和可靠性。
常用场景
经典使用场景
ATEPP数据集在音乐表达研究领域中具有广泛的应用前景,尤其在分析钢琴演奏的情感表达和演奏风格方面。通过该数据集,研究者可以深入探讨不同钢琴家在演奏同一作品时的细微差异,从而揭示演奏者的个性化表达。此外,ATEPP数据集还可用于音乐转录模型的评估与优化,尤其是在处理复杂演奏技巧和情感表达的转录任务中,提供了丰富的实验数据。
实际应用
在实际应用中,ATEPP数据集可广泛用于音乐教育、演奏分析和音乐制作等领域。例如,音乐教育者可以利用该数据集分析不同演奏者的技巧和表达,为学生提供个性化的指导。此外,音乐制作人和作曲家也可以通过该数据集探索不同演奏风格对作品情感表达的影响,从而优化音乐创作和制作流程。
衍生相关工作
ATEPP数据集的发布催生了一系列相关研究工作,特别是在音乐信息检索和音乐情感分析领域。例如,基于该数据集的自动音乐转录模型和音乐情感分类算法得到了广泛研究和应用。此外,数据集中的元数据清理工具“Composition Entity Linker”也为其他音乐数据集的整理和分析提供了重要参考,推动了音乐数据标准化和自动化处理技术的发展。
以上内容由遇见数据集搜集并总结生成



