AMT-AugPy 1.0

github2025-02-12 更新2025-02-13 收录

下载链接：

https://github.com/LarsMonstad/amt-augpy1.0

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于自动音乐转录（AMT）数据集增强的Python工具包，通过多种音频转换保持音频和MIDI文件同步。

A Python toolkit for dataset augmentation in automatic music transcription (AMT), which maintains synchronization between audio and MIDI files via diverse audio transformations.

创建时间：

2025-01-19

原始信息汇总

AMT-AugPy 1.0 数据集概述

数据集简介

AMT-AugPy 1.0 是一个用于自动音乐转录（AMT）数据集增强的 Python 工具包，通过多种音频转换来增强数据集，同时保持音频和 MIDI 文件的同步。

数据集格式

数据集遵循与 MAESTRO v3.0.0 相同的格式，适用于自动音乐转录任务。工具包需要一个包含配对音频和 MIDI 文件的文件夹，文件名必须匹配。

Folder/ ├── song1.wav # 音频文件 ├── song1.mid # 地标性注释 MIDI 文件

特性

时间伸缩：调整音频文件的速度，同时保持音调
音高转换：改变音频文件的音高，同时保持时间
混响与滤波：应用房间声学效果和频率滤波
增益与合唱：通过增益和合唱效果增加深度和丰富度
智能暂停检测：基于音符时间识别和操作音乐暂停
音频标准化：将各种音频格式转换为 44.1kHz WAV

安装

可以通过 pip 或克隆仓库来安装 amt-augpy。

使用 pip

bash pip install amt-augpy1.0

从源代码

bash git clone https://github.com/LarsMonstad/amt-augpy1.0.git cd amt-augpy1.0 pip install -r requirements.txt

依赖

librosa
soundfile
numpy
pedalboard
pretty_midi
tqdm

使用

基本使用

bash python -m amt_augpy.main /path/to/dataset/directory

参数范围（在 main.py 中定义）

时间伸缩：0.6 到 1.6 倍
音高转换：-5 到 +5 半音
混响房间大小：10 到 100
增益：2 到 11 dB
合唱深度：0.1 到 0.6
滤波截止频率对：各种预定义的频率范围

每个输入文件将使用这些范围内的随机参数生成多个增强版本。

文件格式支持

音频

输入：WAV, FLAC, MP3, M4A, AIFF
输出：WAV (44.1kHz)

注释

MIDI (.mid)

输出结构

对于每个输入文件对（音频 + MIDI），工具包生成多个增强版本，文件命名如下：

original_name_effect_parameter_randomsuffix.extension

数据集创建与验证

数据集遵循 MAESTRO v3.0.0 格式，但包括原始录音的增强版本。

创建数据集 CSV

脚本将创建一个 CSV 文件，包含所有原始和增强文件，并组织为训练/测试/验证集。

bash python create_maestro_csv.py /path/to/directory

验证数据集分割

bash python validate_split.py /path/to/dataset.csv

CSV 格式

生成的 CSV 遵循 MAESTRO 格式，包含以下列：

canonical_composer
canonical_title
split
year
midi_filename
audio_filename
duration

许可

MIT 许可，详情见 LICENSE 文件。

引用

如果在使用研究中使用了此工具包，请引用以下信息：

@software{amt_augpy, author = {Lars Monstad}, title = {amt-augpy: Audio augmentation toolkit for AMT datasets}, version = {1.0}, year = {2025} }

搜集汇总

数据集介绍

构建方式

AMT-AugPy 1.0是一款针对自动音乐转录（AMT）任务的Python数据增强工具包。该工具包通过音频转换对现有数据集进行增强，并保持音频与MIDI文件同步。其构建方式遵循MAESTRO v3.0.0的数据格式，以兼容自动音乐转录领域常用的标准数据集格式。

特点

该数据集具备多种音频增强特性，包括时间伸缩、音高转换、混响与滤波、增益与合唱效果、智能暂停检测以及音频标准化转换至44.1kHz WAV格式。这些特性使得数据集在增强音频数据的同时，保持了音乐转录数据的多样性和真实性。

使用方法

使用AMT-AugPy 1.0时，用户需提供一个包含配对音频和MIDI文件的文件夹。工具包将自动对这些文件进行增强处理，生成具有随机参数的多个增强版本。此外，工具包还提供了创建CSV文件以组织训练、测试和验证数据集的功能，并可通过脚本验证数据集分割的完整性。

背景与挑战

背景概述

AMT-AugPy 1.0是一款为自动音乐转录（Automatic Music Transcription, AMT）任务设计的Python数据增强工具包。该工具包由Lars Monstad于2025年开发，旨在通过多种音频变换增强音频与MIDI文件同步的音乐转录数据集。它遵循MAESTRO v3.0.0的数据格式，这是AMT任务中常用的格式。AMT-AugPy 1.0通过提供时间伸缩、音高转换、混响与滤波、增益与合唱效果等音频变换功能，扩展了现有数据集的应用范围，为机器学习领域提供了重要的数据增强工具。

当前挑战

在研究领域问题上，AMT-AugPy 1.0面临的挑战包括如何精确地同步音频与MIDI文件，以及如何在增强数据的同时保持音乐原有的风格和特点。构建过程中，该工具包需要克服的挑战涉及音频变换算法的精确度和效率，以及如何确保数据增强后的数据集能够有效提高机器学习模型的性能。此外，为了遵循MIT许可证的规定，该工具包在开发和维护过程中还需严格遵循开源协议的相关要求。

常用场景

经典使用场景

AMT-AugPy 1.0数据集之Python数据增强工具包，专为自动音乐转录（AMT）领域设计。该工具包通过多种音频转换，同步维护音频与MIDI文件之间的同步，以增强数据集的多样性和鲁棒性。经典使用场景包括对现有音乐转录数据集进行增强，以提升机器学习模型的泛化能力。

解决学术问题

该数据集解决了在自动音乐转录任务中，数据集多样性和音频质量对模型性能影响的问题。通过提供音频的时间伸缩、音高转换、混响与滤波等多种增强技术，有助于改善模型的转录准确度和鲁棒性，进一步推动学术研究的深入。

衍生相关工作

基于AMT-AugPy 1.0，研究者可以开展诸如音乐风格转换、情感识别等深度学习研究，并已衍生出多项相关工作，如音乐生成模型、音乐信息检索系统等，为音乐技术领域带来广泛的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集