Chord Melody Dataset

github2024-01-18 更新2024-05-31 收录

下载链接：

https://github.com/shiehn/chord-melody-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于和弦与旋律之间的关系，旨在训练能够从和弦进行预测旋律或反之的模型。数据集遵循严格的格式，所有歌曲以MUSIC_XML格式保存，每个小节包含两个和弦，所有音符必须是单音旋律，音符和/或休止符总和为4拍，不支持三连音，最高支持16分音符的分辨率。数据集通过使用SMARTSCORE软件的OCR功能扫描领谱创建。

This dataset focuses on the relationship between chords and melodies, aiming to train models capable of predicting melodies from chord progressions or vice versa. The dataset adheres to a strict format, with all songs saved in MUSIC_XML format. Each measure contains two chords, and all notes must be monophonic melodies, with the total of notes and/or rests summing to four beats. Triplets are not supported, and the highest resolution supported is sixteenth notes. The dataset was created by scanning lead sheets using the OCR functionality of SMARTSCORE software.

创建时间：

2017-12-28

原始信息汇总

Chord Melody Dataset 概述

数据集目的

该数据集专注于和弦与旋律之间的关系，旨在用于训练能够从和弦进行预测旋律或反之的模型。

数据集格式

文件格式：所有歌曲保存为 MUSIC_XML 格式。
每小节要求：
- 包含2个和弦。
- 所有音符必须是单音的（即单音旋律）。
- 音符和/或休止符合计为4拍（4/4时间）。
- 不支持三连音。
- 最大支持的分辨率为16分音符。

数据集创建方式

数据集通过使用 SMARTSCORE SOFTWARE 的OCR功能扫描领谱创建。

数据集贡献

理想情况下，每首歌曲/领谱将被转置到12个调。提供了一个Golang应用程序来验证XML格式的正确性。

数据集使用

为了使用此数据集进行音乐预测，必须首先将数据编码为机器学习算法可消费的格式。提供了一个简单的GoLang命令行工具，用于消费MusicXML格式并输出编码数据字符串。

搜集汇总

数据集介绍

构建方式

Chord Melody数据集的构建过程依托于SMARTSCORE软件的OCR功能，通过扫描乐谱（leadsheets）实现数据采集。为确保数据格式的统一性，所有歌曲均以MUSIC_XML格式保存，并遵循严格的规范：每小节必须包含两个和弦，旋律部分仅支持单音音符，且音符与休止符的总时值需符合4/4拍的要求。此外，数据集中不支持三连音，且音符的最大分辨率限定为十六分音符。为扩展数据集的多样性，鼓励将每首歌曲转调至12个不同的调性，并通过GoLang编写的工具验证XML格式的正确性。

特点

Chord Melody数据集专注于和弦与旋律之间的关联性，旨在为模型训练提供高质量的音乐数据。其核心特点在于严格的数据格式规范，确保每小节的和弦与旋律结构清晰且一致。数据集中的所有旋律均为单音音符，避免了复音旋律的复杂性，便于模型专注于和弦与单音旋律的映射关系。此外，数据集的MUSIC_XML格式为开发者提供了标准化的数据接口，便于后续处理与分析。通过转调至12个调性，数据集进一步增强了数据的多样性与泛化能力。

使用方法

使用Chord Melody数据集进行音乐预测时，首先需将MUSIC_XML格式的数据编码为机器学习算法可处理的格式。开发者可使用提供的GoLang命令行工具实现这一转换，该工具能够将MusicXML文件解析并输出编码后的数据字符串。为更好地将数据应用于机器学习框架，建议参考相关博客与项目，如Signals & Sorcery Blog和TrebleMaker.Ai，以获取数据格式化与模型训练的灵感。通过合理的数据预处理与模型设计，该数据集可用于训练预测旋律与和弦关系的模型，为音乐生成与分析提供支持。

背景与挑战

背景概述

Chord Melody Dataset是一个专注于和弦与旋律关系的音乐数据集，旨在训练能够从和弦进行预测旋律或反之的模型。该数据集由Steve Hiehn创建，采用MUSIC_XML格式存储，确保每小节包含两个和弦，且所有音符均为单音旋律，符合4/4拍子，最大支持16分音符分辨率。数据集的构建依赖于SMARTSCORE软件的OCR功能，通过扫描乐谱生成。该数据集为音乐信息检索和生成领域提供了宝贵资源，推动了音乐与人工智能的交叉研究。

当前挑战

Chord Melody Dataset在构建和应用中面临多重挑战。首先，数据集的严格格式要求，如每小节必须包含两个和弦且音符为单音旋律，限制了数据的多样性和复杂性，可能影响模型的泛化能力。其次，数据集的构建依赖于OCR技术，乐谱扫描和转换过程中可能出现误差，影响数据质量。此外，尽管提供了编码工具，但将MUSIC_XML格式转换为机器学习算法可处理的格式仍需额外处理，增加了使用门槛。最后，数据集尚未完全扩展到12个调式，限制了其在多调式音乐生成中的应用潜力。

常用场景

经典使用场景

Chord Melody Dataset在音乐信息检索和生成领域具有重要应用，尤其适用于训练模型以预测和弦进行与旋律之间的关系。该数据集通过提供严格格式化的音乐XML文件，使得研究人员能够深入分析和弦与旋律之间的复杂互动，从而推动自动音乐生成技术的发展。

解决学术问题

该数据集解决了音乐理论中关于和弦与旋律关系的研究难题。通过提供大量标准化的音乐片段，研究人员能够利用机器学习算法探索和弦进行如何影响旋律的生成，以及旋律如何反过来影响和弦的选择。这一研究不仅深化了对音乐结构的理解，还为自动作曲系统提供了理论基础。

衍生相关工作

基于Chord Melody Dataset，许多经典的音乐生成模型和算法得以开发。例如，研究人员利用该数据集训练了多种神经网络模型，用于预测旋律与和弦的对应关系。此外，该数据集还催生了一系列开源工具和框架，如MusicXmlParser和TrebleMaker.Ai，这些工具进一步推动了音乐生成技术的研究和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集