JSB-Chorales-dataset

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/czhuang/JSB-Chorales-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

JSB Chorales数据集，包含不同时间分辨率（四分音符、八分音符、十六分音符）的数据，用于训练、验证和测试。数据集未编码休止符，也不区分持续音和重复音。

The JSB Chorales dataset comprises data at various temporal resolutions (quarter notes, eighth notes, sixteenth notes), intended for training, validation, and testing purposes. The dataset does not encode rests and does not differentiate between sustained and repeated notes.

创建时间：

2017-05-06

原始信息汇总

JSB-Chorales-dataset 概述

数据集描述

目的：用于JSB Chorales的不同时间分辨率数据集，包含训练、验证和测试分割。
时间分辨率：提供三种时间分辨率，即四分音符、八分音符和十六分音符。
数据特点：数据集未编码休止符，且不区分持续音和重复音。

数据格式

原始格式：使用Python的pickle模块加载，数据为一个字典，包含train, valid, test键，对应的值为序列列表。
Coconet格式：文件Jsb16thSeparated.npz提供，每个时间步包含四个数字，代表SATB四个声部的音高，无声时使用NaN表示。
JSON格式：所有数据也提供JSON格式，无声时使用-1表示。

引用

来源：数据集基于Boulanger-Lewandowski (2012)的研究。

搜集汇总

数据集介绍

构建方式

JSB-Chorales-dataset 数据集的构建基于Boulanger-Lewandowski (2012)的研究，提供了三种不同时间分辨率的音乐数据：四分之一音符、八分之一音符和十六分之一音符。这些数据通过保留指定时间网格上的音高信息生成，形成了一系列的钢琴卷轴表示。数据集未编码fermata信息，且不区分持续音和重复音。

特点

该数据集的显著特点在于其多分辨率的时间表示，使得研究者能够在不同的时间精度下分析音乐序列。此外，数据集提供了两种不同的数据格式：一种是基于MIDI音符编号的列表，另一种是专门为SATB声部设计的格式，其中每个时间步长包含四个音高值，静音则用NaN或-1表示。

使用方法

使用该数据集时，可以通过Python的pickle或JSON格式加载数据。对于Python 2和Python 3，分别提供了不同的加载方法。数据集包含训练、验证和测试三个部分，每个部分由一系列时间步长组成，每个时间步长包含非零的MIDI音符编号。此外，Jsb16thSeparated.npz和Jsb16thSeparated.json文件提供了额外的数据格式，便于不同研究需求的使用。

背景与挑战

背景概述

JSB-Chorales-dataset是由Boulanger-Lewandowski等人于2012年创建的音乐数据集，专注于多声部音乐生成与转录的研究。该数据集以不同的时间分辨率（四分之一、八分之一、十六分之一音符）记录了JSB合唱作品中的音高信息，旨在为音乐生成和转录任务提供丰富的训练和测试数据。其核心研究问题在于如何有效建模高维时间序列中的时间依赖性，特别是在多声部音乐中的应用。该数据集的发布对音乐信息检索和生成模型的发展产生了深远影响，成为该领域研究的重要基石。

当前挑战

JSB-Chorales-dataset在构建过程中面临多项挑战。首先，数据集未编码休止符（fermatas），且未区分持续音与重复音，这为音乐生成和转录任务带来了复杂性。其次，不同时间分辨率的处理要求精确的时间对齐和音高提取，以确保数据的准确性和一致性。此外，数据集的格式多样性（如Pickle、Numpy、JSON等）虽然提供了灵活性，但也增加了数据处理的复杂度。最后，如何在多声部音乐中有效建模时间依赖性，仍是一个亟待解决的难题，尤其是在处理复杂的音乐结构和动态变化时。

常用场景

经典使用场景

JSB-Chorales-dataset的经典使用场景主要集中在音乐生成与转录领域。该数据集通过提供不同时间分辨率的音乐数据，如四分之一、八分之一和十六分之一音符，为研究者提供了丰富的音乐序列数据。这些数据可以用于训练模型，以捕捉音乐中的时间依赖性，从而实现自动音乐生成和转录。

解决学术问题

该数据集解决了在音乐生成与转录领域中，如何有效建模高维序列数据的时间依赖性这一核心学术问题。通过提供多分辨率的音乐数据，研究者能够更精确地分析和模拟音乐中的复杂模式，推动了音乐信息检索和生成技术的发展，具有重要的学术意义和实际应用价值。

衍生相关工作

基于JSB-Chorales-dataset，许多经典工作得以展开，如Boulanger-Lewandowski等人提出的时间依赖性建模方法，以及Huang和Cooijmans等人开发的Coconet模型。这些工作不仅在音乐生成和转录领域取得了显著成果，还为其他序列数据建模问题提供了宝贵的参考，推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集