Semantic Timbre Dataset

Name: Semantic Timbre Dataset
Creator: 剑桥大学·计算机科学与技术系
Published: 2026-03-17 23:42:53
License: 暂无描述

arXiv2026-03-17 更新2026-03-19 收录

下载链接：

https://huggingface.co/datasets/JoeCameron1/SemanticTimbreDataset

下载链接

链接失效反馈

官方服务：

资源简介：

语义音色数据集是由剑桥大学创建的针对电吉他的专业音频数据集，包含275,310条单音吉他样本，每条均标注了19种音色描述符（如'模糊'、'明亮'）及其强度值。数据来源于EGFxSet原始吉他音色，通过Guitar Rig 7 Pro效果器系统生成不同参数变体，并采用人工标注方式建立音色语义与声学特征的映射关系。该数据集填补了生成式AI在音乐音色控制领域的空白，支持语义音频合成、音色插值等研究，为解决传统音频生成模型缺乏直观语义控制的问题提供了结构化数据基础。

The Semantic Timbre Dataset is a professional audio dataset focused on electric guitars, developed by the University of Cambridge. It contains 275,310 single-note guitar samples, each annotated with 19 timbre descriptors (such as 'fuzz' and 'bright') and their corresponding intensity values. Derived from the original guitar timbres of the EGFxSet, the dataset generates variants with different parameters via the Guitar Rig 7 Pro effects system, and establishes the mapping between timbre semantics and acoustic features through manual annotation. This dataset fills the gap in the field of musical timbre control for generative AI, supporting research directions including semantic audio synthesis and timbre interpolation, and provides a structured data foundation to address the issue that traditional audio generation models lack intuitive semantic control.

提供机构：

剑桥大学·计算机科学与技术系

创建时间：

2026-03-17

原始信息汇总

Semantic Timbre Dataset 数据集概述

数据集基本信息

许可证: Apache 2.0
语言: 英语
标签: 音频、音色、吉他
数据集名称: Semantic Timbre Dataset

数据集内容

音频文件总数: 275,310 个
音频格式: 单声道电吉他声音的 .wav 文件
核心标注: 使用 19 个语义音色描述符进行标注，每个描述符对应逐渐增加的音色强度等级。

音色描述符

数据集包含以下 19 个音色描述符，这些描述符源自物理和虚拟吉他效果器参数中最常出现的关键词：

Crunchy
Crushed
Dirty
Fuzzy
Bright
Dark
Fat
Resonant
Thin
Punchy
Sharp
Soft
Smooth
Tight
Fluttery
Jittery
Shimmering
Stuttering
WahWah

数据组织与结构

分组与层级

每个音色描述符组包含 14,490 个音频文件。
这些文件通过 Native Instruments 的 Guitar Rig 7 Pro 效果器参数生成，参数值与描述符相对应。
每个效果器参数以 5 为增量从 0 调整到 100，因此每个音色描述符组进一步细分为 21 个小组（对应 0 到 100 的音色强度），每个小组包含 690 个音频文件。

目录结构

音频文件存储在按以下模式命名的子文件夹中：

SemanticTimbreDataset/audio/TIMBRE_GROUP/TIMBRE_DESCRIPTOR/TIMBRE_MAGNITUDE

TIMBRE_GROUP (音色组): 为以下四类之一：
- DistortionFX
- FilterFX
- DynamicsFX
- OscillationFX
TIMBRE_DESCRIPTOR (音色描述符): 与音色组对应的具体描述符：
- DistortionFX / Crunch, Crush, Dirt, Fuzz
- FilterFX / Bright, Dark, Fat, Thin, Resonant
- DynamicsFX / Punch, Sharp, Smooth, Soft, Tight
- OscillationFX / Fluttery, Jittery, Shimmery, Stuttering, WahWah
TIMBRE_MAGNITUDE (音色强度): 从 0 到 100，以 5 为增量的 21 个等级之一（如 0, 5, 10, ..., 100）。

文件命名规则

每个 .wav 音频文件的名称对应其音高和拾音器配置，模式如下：

PITCH_PICKUPCONFIGURATION.wav

PITCH (音高): 由“弦-品”二元组表示，为两位数字，指示弦号（1至6，1为最高音弦，6为最低音弦）和品号（0表示空弦，1至22表示品位）。例如 1-0。
PICKUPCONFIGURATION (拾音器配置): 五种可能的配置之一：
- Bridge: 无后缀
- Bridge-Middle: 后缀 _1
- Middle: 后缀 _2
- Middle-Neck: 后缀 _3
- Neck: 后缀 _4
示例:
- 文件 1-0_2.wav 表示在 Fender Stratocaster 电吉他上，使用中间拾音器配置演奏的 E4 音符（第一根/最高音空弦）。
- 文件 1-5.wav 表示在 Fender Stratocaster 电吉他上，使用琴桥拾音器配置，在第5品演奏的第一根/最高音弦上的 A4 音符。

数据来源

原始数据: 690 个干净、未处理的 Fender Stratocaster 单音音符录音，源自 Hegel Pedroza、Irán Roman 和 Gerardo Meza 创建的 EGFxSet (https://egfxset.github.io)。
标注者: Joseph M. Cameron (https://josephcameron.info)

直接用途

该数据集可用于训练生成式 AI 模型，以根据数据集的 19 个语义音色描述符生成具有特定音色规格的电吉他声音。

隐私与敏感信息

该数据集不包含任何个人或敏感信息。

数据集卡片作者

Joseph M. Cameron (https://josephcameron.info)
Alan F. Blackwell (https://www.cl.cam.ac.uk/~afb21/)

数据集卡片联系人

Joseph M. Cameron (https://josephcameron.info)

搜集汇总

数据集介绍

构建方式

在音频合成领域，音色作为区分相同音高与响度声音的感知属性，其语义化建模长期面临标注数据稀缺的挑战。Semantic Timbre Dataset的构建采用了系统化的工程方法：首先通过对72种实体吉他效果器及两款虚拟插件套件的定性内容分析，筛选出19个涵盖频谱与动态特性的核心音色描述符；随后基于EGFxSet数据集提供的纯净单音吉他音符，利用Guitar Rig 7 Pro组件施加描述符对应的音频效果，并以5为步长在0-100范围内调节效果参数，生成具有连续强度变化的音色样本。这种分层构建策略确保了每个音频片段都精确标注了语义描述符及其对应的音色强度值，形成了包含275,310个样本的结构化数据集。

特点

该数据集的核心特征体现在其语义标注的精细度与系统性。区别于传统音频数据集仅提供粗糙的音色类别标签，本数据集通过实证研究提炼出音乐实践中常用的19个描述符，如'模糊'、'明亮'、'闪烁'等，并赋予每个样本0-100连续量化的强度值。这种设计不仅覆盖了失真、滤波、动态、振荡四大音色效应类别，更建立了感知维度与声学参数之间的映射关系。数据集特别强调单音电吉他音色的纯净性与可控性，所有样本均基于相同音源通过标准化处理流程生成，有效控制了音高、时长等混淆变量，为音色感知研究提供了高度一致的数据基础。

使用方法

该数据集主要服务于生成式人工智能与计算听觉研究领域。研究者可利用其训练变分自编码器等生成模型，学习音色语义描述符与潜在表征空间的对应关系，实现基于描述符的音色插值与控制。具体应用中，数据集支持端到端的音色重建任务评估，通过比较原始样本与重建样本的感知相似度验证模型性能；同时支持语义插值实验，通过在潜在空间线性插值实现不同描述符之间的平滑过渡。评估流程可结合客观指标（如分类器准确率）与主观听感测试（平均意见得分），全面检验生成音色的语义一致性与感知质量。数据集配套公开的代码库与评估协议，为复现研究提供了完整的技术框架。

背景与挑战

背景概述

音色作为区分相同音高与响度声音的感知属性，在音频合成与音乐表达中占据核心地位。然而，由于缺乏将感知特质与语义描述符系统关联的标注数据集，音色在生成式机器学习中的建模与控制长期面临瓶颈。为弥合这一语义鸿沟，剑桥大学计算机科学与技术系的Joseph M. Cameron与Alan F. Blackwell于2024年构建了Semantic Timbre Dataset。该数据集精心收录了275,310个单音电吉他声音样本，每个样本均标注有19种语义音色描述符及其对应的强度值，描述符源自对物理与虚拟吉他效果单元的定性分析。这一资源旨在连接感知音色与机器学习表征，为音色控制与语义音频生成研究提供结构化监督，推动了生成式人工智能在音色感知方向的发展。

当前挑战

该数据集致力于解决音频合成领域中语义音色控制的挑战，即如何让生成模型能够根据‘明亮’、‘模糊’等高层语义描述符直观地操控音色，而非依赖低层参数调整。构建过程中的主要挑战在于语义描述符的系统化选择与标注。研究者需从大量吉他效果单元中提取出普适且音乐相关的描述符，并确保其能准确映射到声学特性。此外，生成具有可控强度变化的音频样本要求精细的参数步进与效果处理，以在数据集中形成密集且一致的语义-声学关联。这些挑战的克服为后续音色感知生成模型的训练与评估奠定了可靠基础。

常用场景

经典使用场景

在音频合成与机器学习交叉领域，音色（timbre）的语义建模长期面临标注数据匮乏的挑战。Semantic Timbre Dataset 通过系统标注的 19 种语义描述符及其强度值，为研究者提供了经典的使用场景：训练变分自编码器（VAE）等生成模型，实现从语义描述到音色特征的映射与插值。该数据集使得模型能够在潜在空间中平滑过渡不同音色特质，例如从“模糊”到“闪亮”的连续变换，为语义驱动的音色合成奠定了数据基础。

衍生相关工作

该数据集的发布催生了一系列围绕语义音色建模的衍生研究。基于其标注体系，后续工作可探索更复杂的生成架构如扩散模型或强化学习框架，以提升音色插值的自然度与多样性。同时，该数据集启发了跨乐器音色语义迁移、多描述符混合控制以及实时交互式合成系统的开发。这些工作共同拓展了语义音频生成的边界，并为音乐信息检索、音频内容生成等领域的算法创新提供了重要参考。

数据集最近研究