EGDB-PG
收藏arXiv2025-04-10 更新2025-04-13 收录
下载链接:
https://ss12f32v.github.io/Guitar-Transcription-with-Amplifier/
下载链接
链接失效反馈官方服务:
资源简介:
EGDB-PG数据集由台湾大学和Positive Grid公司共同创建,旨在解决现有吉他数据集在音色多样性方面的不足。该数据集通过使用Positive Grid的BiasFX2插件,对EGDB数据集中的干净音频进行重新渲染,产生了256种独特的预设,覆盖了从低增益到高增益的多种放大器类型。EGDB-PG数据集包含514小时的音频,大大增强了音色覆盖范围,为电吉他音频转录模型的训练和评估提供了丰富的资源。
The EGDB-PG dataset was co-created by National Taiwan University and Positive Grid, aiming to address the deficiency in timbral diversity of existing guitar datasets. This dataset re-renders the clean audio from the original EGDB dataset using Positive Grid’s BiasFX2 plugin, generating 256 unique presets covering a wide range of amplifier types from low-gain to high-gain configurations. The EGDB-PG dataset contains 514 hours of audio, greatly expanding timbral coverage and providing a rich resource for the training and evaluation of electric guitar audio transcription models.
提供机构:
台湾大学
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
EGDB-PG数据集的构建基于EGDB数据集,通过Positive Grid的BiasFX2插件对原始音频进行重新渲染,生成了256种独特的预设组合,涵盖了16种放大器头和16种音箱配置。这些预设被分类为低增益、中增益和高增益三种类型,以模拟不同音色特性。数据集的分割采用了90/5/5的比例,分别用于训练、验证和测试,总音频时长达到514小时。这一构建过程不仅扩展了原始数据集的音色多样性,还为模型训练提供了丰富的音色变化样本。
特点
EGDB-PG数据集的主要特点在于其广泛的音色覆盖和高质量的音色标注。通过256种预设组合,数据集捕捉了从低增益到高增益的多种音色变化,包括谐波失真和其他效果处理后的音频。此外,数据集还提供了与原始音频对齐的标签,为训练鲁棒的转录模型提供了重要支持。数据集的多样性和规模使其成为研究音色相关转录任务的理想资源,能够有效提升模型在复杂音色条件下的泛化能力。
使用方法
EGDB-PG数据集的使用方法主要包括音色嵌入技术的应用和内容增强策略的实施。音色嵌入通过对比学习从音频中提取音色特征,作为转录模型的输入条件,帮助模型适应不同的音色变化。内容增强则通过引入其他吉他数据集(如GuitarSet)的音频,进一步丰富训练数据的多样性。此外,音频归一化技术被用于确保输入信号的一致性。这些方法的结合显著提升了模型在音色相关转录任务中的性能,尤其是在处理未见过的音色配置时表现出色。
背景与挑战
背景概述
EGDB-PG数据集由国立台湾大学与Positive Grid合作开发,旨在解决电吉他音频转录中的音色多样性问题。该数据集通过将EGDB数据集中的音频片段使用BiasFX2插件重新渲染,生成了256种独特的放大器-箱体组合预设,覆盖了从低增益到高增益的广泛音色范围。EGDB-PG的推出填补了电吉他音频转录领域缺乏多样化音色数据集的空白,为训练更鲁棒的转录模型提供了重要资源。
当前挑战
EGDB-PG数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,电吉他音频转录需要处理由放大器、效果器等引入的复杂谐波失真和频谱变化,这些因素导致音频信号与原始乐谱之间的映射关系变得高度非线性。在构建过程方面,数据集需要精确对齐原始音频与渲染后的音色变化,同时确保覆盖足够的音色多样性以支持模型的泛化能力。此外,数据集的构建还面临标注成本高、音色组合近乎无限等实际困难。
常用场景
经典使用场景
EGDB-PG数据集在音乐信息检索领域被广泛用于电吉他音频转录的研究。该数据集通过捕捉多种放大器-箱体配置下的音色变化,为研究者提供了一个多样化的训练和测试平台。其经典使用场景包括训练和评估自动音乐转录模型,特别是在处理高增益和复杂音色效果的电吉他音频时,能够显著提升模型的泛化能力。
实际应用
在实际应用中,EGDB-PG数据集被用于开发电吉他音频转录工具,这些工具广泛应用于音乐教育、自动MIDI生成和音乐制作。例如,初学者可以通过转录工具快速学习复杂的吉他曲目,而音乐制作人则可以利用这些工具将吉他录音自动转换为乐谱或MIDI文件,从而简化创作流程。
衍生相关工作
EGDB-PG数据集衍生了一系列经典研究工作,特别是在音色感知转录模型领域。例如,基于该数据集开发的Tone-informed Transformer (TIT)模型通过引入音色嵌入机制,显著提升了转录精度。此外,该数据集还被用于研究内容增强和音频归一化技术,进一步推动了电吉他音频转录领域的发展。
以上内容由遇见数据集搜集并总结生成



