five

JSB Chorales, MAESTRO

收藏
github2022-12-12 更新2024-05-31 收录
下载链接:
https://github.com/carlosholivan/musicaiz-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含JSB Chorales和MAESTRO两个数据集,这些数据集经过tokenized处理,用于训练深度学习序列模型。

This dataset includes both the JSB Chorales and MAESTRO datasets, which have been tokenized for the purpose of training deep learning sequence models.
创建时间:
2022-06-30
原始信息汇总

数据集概述

数据集名称

  • JSB Chorales
  • MAESTRO

数据集结构

数据集组织结构如下:

📦musicaiz-datasets ┣ 📂dataset_name ┃ ┗ 📂tokenizer ┃ ┗ 📂tokenization_type ┃ ┗ 📂train ┃ ┃ ┗ 📜token-sequences.txt ┃ ┗ 📂validation ┃ ┃ ┗ 📜token-sequences.txt ┃ ┗ 📂test ┃ ┃ ┗ 📜token-sequences.txt ┃ ┗ 📜vocabulary.txt

数据集内容

  • JSB ChoralesMAESTRO 数据集包含以下内容:
    • 训练集、验证集和测试集的token序列文件(token-sequences.txt)
    • 词汇表文件(vocabulary.txt)

数据集用途

这些数据集用于训练深度学习序列模型。

数据集处理

数据集通过 musicaiz 库进行token化处理,支持的tokenization类型包括 4_barsall_bars

数据集许可证

数据集遵循AGPL v3许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
JSB Chorales和MAESTRO数据集的构建基于musicaiz库,该库专门用于生成符号音乐数据以训练深度学习序列模型。数据集通过特定的分词器(如mmm)进行分词处理,并按照4_bars和all_bars两种分词类型组织数据。每个数据集包含训练、验证和测试集的token序列文件以及词汇表文件,确保数据的完整性和可用性。
特点
该数据集的特点在于其高度结构化的token序列,能够有效支持深度学习模型的训练。JSB Chorales和MAESTRO分别代表了巴洛克风格和现代钢琴演奏的音乐数据,涵盖了丰富的音乐风格和结构。此外,数据集还提供了未分词的原始MIDI文件,适用于和声分析等特定任务,进一步扩展了其应用场景。
使用方法
用户可以通过克隆GitHub仓库直接下载数据集,并使用musicaiz库进行进一步处理和分析。数据集的组织形式便于直接加载到深度学习框架中,支持快速实验和模型训练。引用时需注明数据集来源及musicaiz库,以确保学术规范。此外,用户需自行确认数据集的许可协议,确保合法使用。
背景与挑战
背景概述
JSB Chorales和MAESTRO数据集是音乐信息检索和深度学习领域的重要资源,主要用于训练序列模型。JSB Chorales数据集由巴赫的四声部合唱曲组成,而MAESTRO数据集则包含了钢琴演奏的MIDI数据。这些数据集通过musicaiz库进行符号化处理,便于深度学习模型的训练。musicaiz库由Carlos Hernandez-Olivan和Jose R. Beltran于2022年开发,旨在为音乐生成、分析和可视化提供工具。这些数据集的创建为音乐生成、音乐分析和音乐信息检索等领域的研究提供了坚实的基础,推动了相关技术的发展。
当前挑战
JSB Chorales和MAESTRO数据集在应用过程中面临多重挑战。首先,音乐数据的符号化处理需要高度精确的算法,以确保音符和节奏的准确表示。其次,音乐生成任务要求模型能够捕捉复杂的音乐结构和情感表达,这对模型的表达能力提出了较高要求。此外,数据集的构建过程中,如何有效处理不同音乐风格和演奏技巧的多样性,也是一个技术难点。最后,尽管这些数据集为研究提供了丰富资源,但其使用仍需遵守各自的许可协议,确保合法合规。
常用场景
经典使用场景
JSB Chorales和MAESTRO数据集在音乐信息检索和深度学习领域具有重要应用。这些数据集通过musicaiz库进行符号化处理,特别适用于训练序列模型,如LSTM和Transformer。研究者可以利用这些数据集进行音乐生成、旋律预测和和声分析等任务。
解决学术问题
JSB Chorales和MAESTRO数据集解决了音乐生成和分析中的多个关键问题。通过提供结构化的音乐符号数据,研究者能够更精确地建模音乐的时序特征和和声结构。这些数据集为音乐生成算法的评估提供了标准化的基准,推动了音乐信息检索技术的发展。
衍生相关工作
JSB Chorales和MAESTRO数据集催生了许多经典的研究工作。例如,基于这些数据集的深度学习模型在音乐生成任务中取得了显著进展,相关研究发表在顶级会议和期刊上。此外,这些数据集还被用于开发新的音乐分析工具,如自动和声分析和旋律提取算法,进一步拓展了音乐信息检索的研究边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作