Machine readable music datasets

github2020-12-19 更新2024-05-31 收录

下载链接：

https://github.com/midi-ld/machine-readable-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含来自网络的开放、机器可读音乐文档的集合，支持科学研究中对多格式符号音乐记谱的分析。

A collection of open, machine-readable music documents sourced from the web, designed to support the analysis of multi-format symbolic music notation in scientific research.

创建时间：

2018-02-01

原始信息汇总

数据集概述

数据集名称

Machine readable datasets

数据集描述

一个收集自网络的开放、机器可读的音乐文档集合。

数据集动机

当前科学研究中，对多格式符号音乐记谱的分析因网络开放数据的孤立性而受限。这些分析需要大量可直接下载的文件进行大规模数据处理。

包含标准

机器可读
开放许可
可通过URL直接下载

文档格式索引

MIDI
MusicXML
Humdrum
Guitar Pro
Kern

数据集详情

MIDI

The largest MIDI collection on the Internet: 由一位Redditor编译，地址为https://mega.co.nz/#!Elg1TA7T!MXEZPzq9s9YObiUcMCoNQJmCbawZqzAkHzY4Ym6Gs_Q
Lakh MIDI dataset: 包含176,581个独特的MIDI文件，其中45,129个与Million Song Dataset匹配和校准，由Colin Raffel编译，地址为http://hog.ee.columbia.edu/craffel/lmd/lmd_full.tar.gz
Musicalion: 需要抓取

LilyPond

Mutopia数据库: 需要抓取

Kern

Kern Scores: 需要抓取

MusicXML

Catalog of catalogs: 需要抓取
Musicalion: 需要抓取

GuitarPro datasets

信息未提供

搜集汇总

数据集介绍

构建方式

该数据集的构建基于从互联网广泛收集的开放且机器可读的音乐文档。为确保数据的科学性和可用性，数据集严格遵循了机器可读性、开放许可以及通过URL直接下载的三大标准。数据来源涵盖了多种音乐符号格式，包括MIDI、MusicXML、Humdrum、Guitar Pro和Kern等，确保了数据的多样性和广泛性。

特点

该数据集的特点在于其多样化的音乐符号格式和开放许可的特性。数据集不仅包含了MIDI、MusicXML等常见格式，还涵盖了Humdrum、Guitar Pro和Kern等专业格式，为多格式符号音乐研究提供了丰富的素材。此外，所有数据均通过URL直接下载，便于大规模数据处理和分析。

使用方法

使用该数据集时，用户可通过提供的URL直接下载所需格式的音乐文档。数据集适用于大规模的音乐符号分析、机器学习模型的训练以及音乐信息检索等领域。用户可根据研究需求选择特定格式的数据，或利用多种格式进行跨格式的音乐符号研究。

背景与挑战

背景概述

在音乐信息检索和计算音乐学领域，多格式符号音乐数据的可用性一直是研究的瓶颈。Machine readable music datasets的创建旨在解决这一问题，通过收集来自互联网的开放、机器可读的音乐文档，为大规模的音乐数据分析提供基础。该数据集由多位研究人员和机构共同维护，包括Colin Raffel等知名学者，涵盖了MIDI、MusicXML、Humdrum、Guitar Pro和Kern等多种音乐文件格式。自创建以来，该数据集已成为音乐信息检索、音乐生成和音乐分析等领域的重要资源，推动了相关研究的进展。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，音乐数据的多样性和复杂性使得跨格式的音乐分析变得极为困难，尤其是在缺乏统一标准的情况下，不同格式之间的转换和数据整合成为一大难题。其次，数据集的构建过程中，数据的开放性和可访问性是一个关键问题。尽管数据集要求所有收录的音乐文件必须具有开放许可并可直接下载，但许多数据源仍需要通过爬取或手动整理，这不仅增加了数据收集的难度，还可能导致数据的不完整或过时。此外，数据集的维护和更新也需要持续的技术支持和资源投入，以确保其长期可用性和研究价值。

常用场景

经典使用场景

在音乐信息检索和计算音乐学领域，Machine readable music datasets数据集为研究者提供了丰富的多格式符号音乐文档资源。这些数据集广泛应用于音乐风格分析、旋律提取、和声分析以及音乐生成等任务。通过直接下载这些机器可读的文件，研究者能够进行大规模的数值计算和模式识别，从而深入理解音乐的结构和特征。

解决学术问题

该数据集解决了音乐研究中数据孤岛问题，使得跨格式的音乐符号分析成为可能。通过提供开放许可的机器可读文件，研究者能够进行大规模的跨格式音乐数据比较和分析，推动了音乐信息检索、音乐生成和音乐风格分类等领域的研究进展。这些数据集为音乐学和计算机科学的交叉研究提供了坚实的基础。

衍生相关工作

该数据集衍生了许多经典的研究工作，例如基于Lakh MIDI数据集的音乐生成模型和基于Kern Scores的音乐风格分类算法。这些研究工作不仅推动了音乐信息检索和计算音乐学的发展，还为音乐生成和音乐推荐系统提供了新的方法和工具。此外，这些数据集还被用于开发新的音乐分析工具和平台，进一步扩展了其应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集