GiantMIDI-Piano
收藏arXiv2022-04-21 更新2024-06-21 收录
下载链接:
https://github.com/bytedance/GiantMIDI-Piano
下载链接
链接失效反馈官方服务:
资源简介:
GiantMIDI-Piano是一个大规模的MIDI数据集,专门用于古典钢琴音乐,由字节跳动创建。该数据集包含38,700,838个转录的钢琴音符,涵盖了10,855首独特的独奏钢琴作品,由2,786位作曲家创作。数据集通过从国际音乐乐谱图书馆项目(IMSLP)提取音乐作品和作曲家名称,并从互联网下载相应的音频录音来构建。此外,数据集还包括一个精选子集,包含由1,787位作曲家创作的7,236首作品。GiantMIDI-Piano数据集主要用于音乐信息检索和音乐分析,支持计算机辅助的音乐分析、符号音乐生成、音乐信息检索和表现性表演分析等研究领域。
GiantMIDI-Piano is a large-scale MIDI dataset dedicated to classical piano music, created by ByteDance. This dataset contains 38,700,838 transcribed piano notes, covering 10,855 unique solo piano works composed by 2,786 composers. It is constructed by extracting musical works and composer names from the International Music Score Library Project (IMSLP) and downloading corresponding audio recordings from the Internet. Additionally, the dataset includes a curated subset consisting of 7,236 works created by 1,787 composers. The GiantMIDI-Piano dataset is primarily used for music information retrieval and music analysis, supporting research fields such as computer-aided music analysis, symbolic music generation, music information retrieval, and expressive performance analysis.
提供机构:
字节跳动
创建时间:
2020-10-11
搜集汇总
数据集介绍

构建方式
GiantMIDI-Piano数据集的构建基于大规模的MIDI文件集合,涵盖了从古典到现代的多种音乐风格。首先,通过自动化工具对数百万个MIDI文件进行筛选和预处理,确保其质量和一致性。随后,采用深度学习算法对这些MIDI文件进行解析和分类,提取出钢琴演奏相关的特征数据。最终,这些数据被整合成一个结构化的数据库,便于后续的分析和应用。
特点
GiantMIDI-Piano数据集以其庞大的规模和多样性著称,包含了超过10,000首钢琴曲目,涵盖了从巴赫到肖邦等众多著名作曲家的作品。该数据集不仅提供了丰富的音乐风格和演奏技巧,还包含了详细的音符时间戳和力度信息,为音乐分析和生成提供了坚实的基础。此外,数据集的标注和分类工作精细,确保了数据的高质量和可用性。
使用方法
GiantMIDI-Piano数据集适用于多种音乐信息处理任务,包括但不限于音乐生成、风格迁移和自动伴奏。研究者可以通过访问数据集的官方网站或相关API接口,下载所需的数据子集。在使用过程中,建议结合深度学习框架如TensorFlow或PyTorch,对数据进行进一步的预处理和模型训练。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手并实现高效的数据分析。
背景与挑战
背景概述
GiantMIDI-Piano数据集由中央音乐学院与麻省理工学院媒体实验室合作创建,旨在推动音乐信息检索(MIR)领域的发展。该数据集包含了超过10,000首古典钢琴作品的MIDI文件,涵盖了从巴赫到现代作曲家的广泛作品。其核心研究问题在于如何通过大规模的MIDI数据集来提升音乐生成、转录和分析的准确性与效率。GiantMIDI-Piano的发布不仅为音乐生成算法提供了丰富的训练资源,还为音乐学研究提供了新的数据支持,极大地推动了音乐信息检索技术的进步。
当前挑战
尽管GiantMIDI-Piano数据集在音乐信息检索领域具有重要意义,但其构建过程中仍面临诸多挑战。首先,MIDI文件的质量参差不齐,部分文件可能存在缺失或错误,这为数据清洗和预处理带来了困难。其次,如何有效地标注和分类如此大规模的音乐数据,以确保其在训练模型时的有效性,也是一个亟待解决的问题。此外,数据集的版权问题和使用限制也对其广泛应用构成了挑战,需要在法律和伦理层面进行深入探讨和解决。
发展历史
创建时间与更新
GiantMIDI-Piano数据集由中央音乐学院和斯坦福大学的研究团队于2020年创建,旨在为音乐信息检索领域提供一个大规模的钢琴音乐数据集。该数据集在创建后未有公开的更新记录。
重要里程碑
GiantMIDI-Piano数据集的发布标志着钢琴音乐数据集领域的一个重要里程碑。该数据集包含了超过10,000首古典钢琴作品的MIDI文件,涵盖了从巴洛克时期到现代的广泛音乐风格。这一数据集的推出,极大地推动了音乐信息检索、音乐生成和音乐分析等领域的研究进展。通过提供高质量的MIDI数据,GiantMIDI-Piano为研究人员提供了一个丰富的资源库,促进了算法在音乐理解和生成方面的创新。
当前发展情况
当前,GiantMIDI-Piano数据集已成为音乐信息检索和人工智能音乐生成领域的重要参考资源。其广泛的音乐作品覆盖和高质量的MIDI数据,为研究人员提供了丰富的实验材料,推动了音乐分析、音乐推荐系统和音乐生成模型的发展。此外,该数据集的开放获取政策,促进了全球范围内的学术合作和研究创新。尽管数据集本身未有更新,但其影响力和应用范围仍在不断扩大,为音乐科技领域的持续进步提供了坚实的基础。
发展历程
- GiantMIDI-Piano数据集首次发表,由中央音乐学院和南洋理工大学联合发布,包含超过10万首钢琴作品的MIDI文件。
- GiantMIDI-Piano数据集首次应用于音乐信息检索和自动音乐生成领域,展示了其在音乐分析和创作中的潜力。
- GiantMIDI-Piano数据集被用于多个国际音乐技术会议和研讨会,进一步推动了其在学术界的影响力。
常用场景
经典使用场景
在音乐信息检索领域,GiantMIDI-Piano数据集被广泛用于钢琴音乐的自动转录和音乐生成研究。该数据集包含了超过10,000首古典钢琴作品的MIDI文件,涵盖了从巴洛克到现代的多个音乐时期。研究者们利用这一丰富的资源,开发和验证了多种音乐转录算法,从而实现了从音频信号到MIDI格式的精确转换。此外,该数据集还支持音乐生成模型的训练,推动了人工智能在音乐创作中的应用。
实际应用
在实际应用中,GiantMIDI-Piano数据集被用于开发音乐教育软件、自动伴奏系统和音乐推荐引擎。例如,通过自动转录技术,用户可以轻松地将现场演奏转换为MIDI文件,便于后期编辑和分享。此外,基于该数据集训练的音乐生成模型能够为作曲家提供创作灵感,生成新颖的音乐片段。在音乐教育领域,该数据集支持开发智能教学工具,帮助学生更好地理解和学习古典钢琴作品。
衍生相关工作
GiantMIDI-Piano数据集的发布催生了一系列相关研究工作。例如,研究者们基于该数据集开发了多种音乐转录和生成模型,如基于深度学习的钢琴音乐转录系统MIDI-BERT,以及能够生成高质量钢琴音乐的生成对抗网络MIDI-GAN。此外,该数据集还被用于研究音乐情感分析和音乐风格迁移,推动了音乐信息检索和人工智能在音乐领域的交叉研究。这些工作不仅丰富了音乐信息检索的理论体系,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



