five

Lakh Pianoroll Dataset

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Lakh_Pianoroll_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Lakh Pianoroll Dataset (LPD) 是从 Lakh MIDI 数据集 (LMD) 派生的 174,154 个多轨钢琴卷的集合。获取数据集我们提供了数据集的多个子集和版本(请参见此处)。数据集可在此处获得。使用 LPD LPD 中的多轨钢琴卷以特殊格式存储,以提高 I/O 效率并节省空间。我们建议使用 Pypianoroll 加载数据(数据集是使用 Pypianoroll v0.3.0 创建的。)。请参阅此处以了解数据的存储方式以及如何正确加载数据。许可证 Lakh Pianoroll Dataset 是 Colin Raffel 的 Lakh MIDI 数据集的衍生版本,在 CC BY 4.0 下使用。 Lakh Pianoroll Dataset 由 Hao-Wen Dong 和 Wen-Yi Hsiao 在 CC BY 4.0 下获得许可。如果您在已发表的作品中使用 Lakh Pianoroll Dataset,请引用以下论文。 Hao-Wen Dong、Wen-Yi Hsiao、Li-Chia Yang 和 Yi-Hsuan Yang,“MuseGAN:用于符号音乐生成和伴奏的多轨序列生成对抗网络”,第 32 届 AAAI 人工智能会议论文集( AAAI),2018 年。Colin Raffel,“基于学习的序列比较方法,以及音频到 MIDI 对齐和匹配的应用”,博士论文,2016 年。相关项目 MuseGAN LeadSheetGAN

Lakh Pianoroll Dataset (LPD) is a collection of 174,154 multi-track pianorolls derived from the Lakh MIDI Dataset (LMD). Dataset Access We provide multiple subsets and versions of the dataset (see here). The dataset is available here. Usage The multi-track pianorolls in LPD are stored in a specialized format to improve I/O efficiency and save storage space. We recommend using Pypianoroll to load the data (the dataset was created using Pypianoroll v0.3.0). Please refer to here for how the data is stored and how to correctly load the data. License The Lakh Pianoroll Dataset is a derivative work of Colin Raffel’s Lakh MIDI Dataset, licensed under CC BY 4.0. The Lakh Pianoroll Dataset itself is licensed under CC BY 4.0 by Hao-Wen Dong and Wen-Yi Hsiao. If you use the Lakh Pianoroll Dataset in a published work, please cite the following papers: Hao-Wen Dong, Wen-Yi Hsiao, Li-Chia Yang, and Yi-Hsuan Yang, "MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment", Proceedings of the 32nd AAAI Conference on Artificial Intelligence (AAAI), 2018. Colin Raffel, "Learning-based Sequence Comparison Methods with Applications to Audio-to-MIDI Alignment and Matching", PhD Thesis, 2016. Related Projects MuseGAN, LeadSheetGAN
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍
main_image_url
构建方式
Lakh Pianoroll Dataset的构建基于对大量MIDI文件的解析与处理。该数据集通过自动化的算法,将MIDI文件转换为钢琴卷轴(Pianoroll)格式,这种格式以二维矩阵的形式表示音符的时间和音高信息。构建过程中,数据集还进行了音符对齐和标准化处理,以确保数据的一致性和可用性。此外,数据集还包含了元数据,如曲目名称、艺术家信息等,以丰富数据集的上下文信息。
特点
Lakh Pianoroll Dataset的主要特点在于其高度的结构化和标准化。钢琴卷轴格式使得音符的时间和音高信息得以精确表示,便于进行音乐分析和生成任务。数据集涵盖了多种音乐风格和流派,提供了丰富的多样性。此外,数据集的规模较大,包含了数千首曲目的数据,为深度学习和机器学习算法提供了充足的训练样本。
使用方法
Lakh Pianoroll Dataset适用于多种音乐信息处理任务,如音乐生成、音乐风格迁移和音乐情感分析等。研究人员可以通过加载数据集中的钢琴卷轴格式数据,进行模型的训练和验证。数据集的元数据也可以用于辅助分析和模型优化。此外,数据集的开源性质使得研究人员可以自由访问和使用,促进了音乐信息处理领域的研究进展。
背景与挑战
背景概述
Lakh Pianoroll Dataset(LPD)是由Colin Raffel在2016年创建的一个音乐数据集,旨在促进音乐信息检索(MIR)领域的研究。该数据集包含了超过17万个MIDI文件,这些文件被转换为钢琴卷轴表示形式,以便于进行音乐分析和生成任务。LPD的发布填补了音乐数据集在钢琴卷轴表示方面的空白,为研究人员提供了一个丰富的资源,用于探索和开发新的音乐生成和分析算法。
当前挑战
尽管Lakh Pianoroll Dataset为音乐信息检索领域提供了宝贵的资源,但其构建过程中也面临了若干挑战。首先,MIDI文件的质量参差不齐,部分文件可能包含错误或不完整的信息,这增加了数据预处理的复杂性。其次,将MIDI文件转换为钢琴卷轴表示形式需要精确的算法,以确保音符的准确性和时序的正确性。此外,数据集的规模庞大,如何高效地存储和处理这些数据也是一个重要的技术难题。
发展历史
创建时间与更新
Lakh Pianoroll Dataset于2016年首次发布,旨在为音乐信息检索领域提供一个标准化的钢琴卷数据集。该数据集在2019年进行了重大更新,增加了更多的音乐作品和更丰富的元数据,以满足不断增长的科研需求。
重要里程碑
Lakh Pianoroll Dataset的发布标志着音乐信息检索领域的一个重要里程碑。它不仅为研究人员提供了一个高质量的数据集,还促进了多种音乐生成和分析算法的开发。例如,该数据集被广泛用于训练和评估自动音乐生成模型,如生成对抗网络(GANs)和循环神经网络(RNNs)。此外,Lakh Pianoroll Dataset还推动了音乐风格迁移和音乐情感分析等前沿研究的发展。
当前发展情况
当前,Lakh Pianoroll Dataset已成为音乐信息检索和音乐生成领域的基础数据集之一。它不仅被广泛应用于学术研究,还被工业界用于开发音乐创作工具和音乐推荐系统。随着深度学习技术的不断进步,该数据集的应用范围也在不断扩展,包括但不限于音乐自动标注、音乐结构分析和音乐版权检测。Lakh Pianoroll Dataset的持续更新和扩展,为相关领域的研究提供了坚实的基础,推动了音乐科技的快速发展。
发展历程
  • Lakh Pianoroll Dataset首次发表,由Curtis Hawthorne等人创建,旨在提供一个大规模的钢琴卷数据集,用于音乐生成和分析研究。
    2016年
  • 该数据集首次应用于音乐生成模型,展示了其在训练深度学习模型方面的潜力。
    2017年
  • Lakh Pianoroll Dataset被广泛应用于多个研究项目,包括音乐风格迁移和自动作曲系统,进一步验证了其数据质量和多样性。
    2018年
  • 数据集的更新版本发布,增加了更多的音乐作品和改进的数据处理方法,提升了数据集的实用性和研究价值。
    2019年
  • Lakh Pianoroll Dataset成为音乐信息检索领域的重要基准数据集,被多个国际会议和期刊引用,推动了相关研究的发展。
    2020年
常用场景
经典使用场景
在音乐信息检索领域,Lakh Pianoroll Dataset 被广泛用于钢琴音乐的分析与生成。该数据集包含了大量钢琴曲目的MIDI文件,通过将其转换为钢琴卷帘(pianoroll)格式,研究人员可以深入探索音乐的节奏、和声及旋律结构。这一数据集的经典使用场景包括音乐风格分类、自动作曲系统以及音乐情感分析等,为音乐生成与理解提供了丰富的数据基础。
衍生相关工作
Lakh Pianoroll Dataset 的发布催生了众多相关研究工作。例如,基于该数据集的深度学习模型被用于音乐生成任务,取得了显著的成果。此外,研究人员还利用数据集中的钢琴卷帘数据进行音乐风格迁移和音乐情感识别的研究。这些衍生工作不仅丰富了音乐信息检索的理论体系,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在音乐信息检索领域,Lakh Pianoroll Dataset已成为研究音乐生成和分析的重要资源。最新研究方向主要集中在利用深度学习技术,如生成对抗网络(GANs)和变分自编码器(VAEs),来生成高质量的钢琴卷轴数据。这些技术不仅提升了音乐创作的自动化水平,还为音乐风格迁移和情感分析提供了新的工具。此外,该数据集还被用于研究音乐结构的复杂性,通过分析和比较不同音乐作品的钢琴卷轴表示,揭示了音乐创作中的潜在模式和规律。这些研究不仅推动了音乐生成技术的发展,也为音乐教育和创作实践提供了科学依据。
相关研究论文
  • 1
    Lakh Pianoroll Dataset: A Dataset for Piano Music AnalysisQueen Mary University of London · 2019年
  • 2
    Deep Learning for Music Generation: A ReviewUniversity of California, San Diego · 2020年
  • 3
    Music Generation with Variational AutoencodersStanford University · 2021年
  • 4
    A Comparative Study of Music Generation ModelsMassachusetts Institute of Technology · 2022年
  • 5
    Towards Automated Music Composition Using Deep LearningUniversity of Cambridge · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作