Nottingham dataset

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/jukedeck/nottingham-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

清理后的Nottingham数据集，原始数据来自Nottingham音乐数据库，本仓库详细记录了对ABC文件的手动和程序化修改，以便将其转换为MIDI格式。修改包括和弦表示、重复标记、部分表示和简化选择等，以提高数据集的可读性和可用性。

The cleaned Nottingham dataset, originally sourced from the Nottingham Music Database, meticulously documents both manual and programmatic modifications made to ABC files to convert them into MIDI format. These modifications encompass chord representations, repeat markers, section notations, and simplification choices, among others, aimed at enhancing the dataset's readability and usability.

创建时间：

2017-03-03

原始信息汇总

数据集概述

数据来源

原始ABC文件来源于Nottingham Music Database。

技术清洗规范

ABC文件处理

和弦表示：
- 移除不可解释的符号。
- 统一使用特定格式表示减音、增音和过音和弦。
重复标记：
- 添加开始重复符号以消除程序解析的模糊性。
- 统一第一次和第二次重复的标记方式。
- 在所有第二次重复的结尾添加双竖线，以明确重复结构。
部分标记：
- 扩展部分名称的使用，用于编码不易机器解析的其他乐谱标记。
- 修改P元数据的用法，区分单一部分名称和演奏顺序。
- 替换所有“Da Capo al Segno”或“Dal Segno”的标记为相应的部分细分和重复演奏。
简化选择：
- 移除少数包含与和弦混合的行走低音序列的额外音符。
- 移除含有歌词的少数作品的歌词部分。
通用清洗：
- 修正由于不一致的音符数量或长度导致的错误节拍。
- 在某些情况下，选择移除有问题的作品。

MIDI转换

保留ABC文件中的交替和弦序列，但在MIDI转换中忽略，以简化解析操作。

搜集汇总

数据集介绍

构建方式

诺丁汉数据集（Nottingham dataset）的构建基于诺丁汉音乐数据库（Nottingham Music Database）中的原始ABC文件。为了便于转换为MIDI格式，数据集经过了细致的手动和程序化清理。具体而言，清理过程包括统一和简化和弦符号、重复符号以及部分符号的表示方式，以增强机器可读性。此外，部分复杂的音乐结构如“walking bass”序列和歌词被移除，以简化数据集的复杂性。对于存在节奏不一致的乐曲，进行了适当的调整或移除。

特点

诺丁汉数据集的特点在于其经过精心清理的ABC文件，这些文件在保持音乐信息的同时，增强了机器可读性。数据集中的和弦符号、重复符号和部分符号均经过标准化处理，使得解析更为直接。此外，尽管保留了部分复杂的音乐结构，如重复部分的替代和弦序列，但在MIDI转换过程中选择忽略这些信息以简化处理。

使用方法

诺丁汉数据集主要用于音乐信息处理和机器学习任务。用户可以通过比较原始和清理后的ABC文件，了解数据集的清理过程。数据集可以直接用于音乐生成、和弦识别等任务，尤其适合需要标准化音乐表示的研究。MIDI格式的转换简化了音乐结构的解析，使得数据集在音乐分析和生成模型中具有广泛的应用潜力。

背景与挑战

背景概述

诺丁汉数据集（Nottingham dataset）源自诺丁汉音乐数据库（Nottingham Music Database），该数据库是音乐符号领域的重要资源之一。该数据集的核心研究问题在于如何将原始的ABC文件转换为MIDI格式，以便于音乐信息处理和分析。主要研究人员或机构通过对ABC文件进行技术清洗和标准化处理，确保了数据集在音乐符号解析和机器学习应用中的可用性。该数据集的创建不仅推动了音乐信息学的发展，还为音乐生成、分析和自动编曲等领域的研究提供了宝贵的资源。

当前挑战

诺丁汉数据集在构建过程中面临多项挑战。首先，原始ABC文件中存在不一致的和难以解析的符号，研究人员需要进行符号标准化和清理，以确保数据的可解析性。其次，重复符号和部分符号的表示方式不统一，增加了机器阅读的复杂性，研究人员通过添加明确的重复符号和统一表示方式来解决这一问题。此外，部分乐曲中包含的复杂音乐结构（如“walking bass”序列和歌词）被移除，以简化数据处理。最后，在MIDI转换过程中，研究人员选择忽略重复部分中的替代和弦序列，以简化解析操作。这些挑战反映了音乐符号数据处理中的复杂性和多样性。

常用场景

经典使用场景

诺丁汉数据集（Nottingham dataset）在音乐信息处理领域中，常被用于音乐生成与分析任务。其经典使用场景包括基于ABC格式音乐文件的自动转谱为MIDI格式，以及通过数据集中的和弦与重复结构信息进行音乐风格的学习与模仿。通过该数据集，研究者能够探索音乐序列的生成模型，以及如何利用机器学习技术自动生成具有特定风格的音乐作品。

解决学术问题

诺丁汉数据集解决了音乐信息处理领域中多个关键的学术问题，如音乐符号的自动解析与转换、音乐结构的识别与建模，以及音乐生成算法的训练与评估。该数据集通过提供结构化的音乐数据，使得研究者能够更有效地开发和验证音乐生成与分析算法，推动了音乐信息学领域的发展，并为音乐创作与教育提供了新的工具和方法。

衍生相关工作

基于诺丁汉数据集，衍生了许多经典的音乐信息处理研究工作。例如，研究者利用该数据集开发了多种音乐生成模型，包括基于循环神经网络（RNN）和变分自编码器（VAE）的音乐生成算法。此外，该数据集还被用于音乐风格迁移的研究，通过学习不同音乐作品的风格特征，实现跨风格的音乐创作。这些工作不仅推动了音乐信息学的发展，也为音乐创作和教育提供了新的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集