人工数据集
收藏arXiv2025-02-10 更新2025-02-26 收录
下载链接:
https://github.com/HuwCheston/Panako-SampleID
下载链接
链接失效反馈官方服务:
资源简介:
该人工数据集是由剑桥大学音乐与科学中心的研究人员创建的,用于训练卷积神经网络识别Hip-Hop音乐中的样本。数据集通过从非商业音乐录音中提取人声、和声和打击乐元素,并对原始音频的变体进行训练。该数据集涵盖了从四个开放获取数据库中收集的35,000段音乐录音,经过音频源分离和一系列音频效果处理后,形成了989,184个训练窗口,用于模型的训练和验证。数据集的构建旨在解决Hip-Hop音乐中样本自动识别的问题,服务于音乐发现和理解。
This artificial dataset was developed by researchers at the Centre for Music and Science, University of Cambridge, to train convolutional neural networks for sample recognition in Hip-Hop music. The dataset extracts vocal, harmonic and percussion elements from non-commercial music recordings, and conducts training on variants of the original audio. It encompasses 35,000 music recordings collected from four open-access databases. After undergoing audio source separation and a series of audio effect processing steps, the dataset generates 989,184 training windows for model training and validation. The dataset is constructed to address the problem of automatic sample identification in Hip-Hop music, serving music discovery and understanding.
提供机构:
剑桥大学音乐与科学中心
创建时间:
2025-02-10
原始信息汇总
Panako Sample ID 数据集概述
数据集名称
Panako Sample ID
数据集简介
Panako Sample ID 是一个围绕 Panako 的轻量级包装器,用于计算 Sample ID 项目中使用的音轨的平均精度(mAP)。
数据集要求
- Python 3: 任何版本均可,无需额外依赖。
- Panako 安装: Panako 需要安装并可通过命令行访问,通过运行
panako命令进行测试。
使用说明
- 按照 Git 仓库中的说明安装 Panako(Panako Git 仓库)。
- 测试命令行是否可以访问 Panako,通过运行
panako命令,如果有输出则表示安装成功。 - 将 Sample ID 项目的音频文件放置在
audio目录中。这些文件应标记为T001.wav、T002.wav等(用于查询和候选音轨)或X001.wav、X002.wav等(用于噪声音轨)。文件命名必须遵循 Van Balen et al. (2011) 附录中给出的顺序。 - 确保安装了 Python(无需依赖)并运行
python runme.py。
数据集处理
脚本会将所有候选和噪声音轨存储在数据库中,然后查询所有查询音轨,并使用我们论文中提到的修改计算每个音轨的平均精度。
搜集汇总
数据集介绍

构建方式
该数据集的构建方式是通过从多个非商业音乐录音数据库中提取人声、和声和打击乐元素,并使用音频源分离技术来创建一个包含这些元素的子集。然后,对这些元素进行各种数字音频效果的转换,并训练一个卷积神经网络模型来识别这些转换后的音频元素。这种构建方式有效地解决了训练数据不足的问题,并允许模型学习识别经过音频效果处理的样本。
特点
该数据集的特点是包含多种音乐元素和经过不同音频效果处理的样本,这有助于模型学习识别现实世界中的样本。此外,该数据集的构建方式使得模型能够控制样本的转换程度,从而避免过拟合和泛化问题。
使用方法
该数据集的使用方法是训练一个卷积神经网络模型来识别经过音频效果处理的样本。首先,从非商业音乐录音数据库中提取人声、和声和打击乐元素,并使用音频源分离技术创建一个包含这些元素的子集。然后,对这些元素进行各种数字音频效果的转换,并训练模型来识别这些转换后的音频元素。最后,使用商业嘻哈音乐录音数据集来评估模型的性能。
背景与挑战
背景概述
在流行音乐领域,尤其是嘻哈音乐中,采样是一种常见的创作实践,即将其他来源的录音音乐或声音重新用于新的作品中。随着技术的发展,出现了许多服务,允许用户识别采样与包含采样的歌曲之间的联系,旨在增强音乐发现。然而,设计一个能够自动执行相同任务的系统是一个挑战,因为采样通常通过音频效果(如音高和时间拉伸)进行修改,并且可能只有几秒钟长。由于训练数据的有限可用性,这项任务的进展一直很小。 Cheston 等人 (2025) 的研究展示了通过多损失训练和人工数据集训练的卷积神经网络 (CNN) 可以识别现实世界中的嘻哈音乐样本。他们使用音频源分离技术从多个非商业音乐录音数据库中提取声乐、和谐和打击乐器元素,并训练模型在原始音频的转换版本中指纹这些元素的一小部分。他们使用联合分类和度量学习损失优化模型,并表明它比使用声学地标的指纹识别系统在现实世界中的采样实例上实现了 13% 的更高精度,并且可以识别经过音高偏移和时间拉伸的样本。他们还表明,对于他们测试的一半商业音乐录音,他们的模型能够将样本的位置定位在五秒之内。
当前挑战
该数据集相关的挑战包括:1) 所解决的领域问题的挑战,即设计一个能够自动识别采样的系统;2) 构建过程中所遇到的挑战,例如采样的音频效果修改、采样时长短、训练数据的有限可用性等。此外,人工数据集的构建过程中,如何确保数据集的多样性和真实性也是一项挑战。
常用场景
经典使用场景
人工数据集在Hip-Hop音乐中自动识别样本的领域内,被广泛应用于音乐发现和版权管理。通过对非商业音乐录音中的声乐、和谐和打击乐元素进行提取,并将其与经过各种数字音频效果变换的原始音频进行指纹匹配,人工数据集帮助构建了一个能够自动识别真实世界中样本的系统。该系统在商业Hip-Hop音乐中取得了13%的精确度提升,并且能够识别经过音高转换和时间拉伸的样本。
衍生相关工作
人工数据集衍生了一系列相关工作,包括音乐信息检索、版权管理和音乐发现等领域。例如,它可以用于构建音乐数据库,帮助用户识别和查找包含特定样本的歌曲。此外,它还可以用于开发音乐分析工具,帮助音乐学家研究音乐样本的历史和发展。
数据集最近研究
最新研究方向
在音乐信息检索领域,特别是嘻哈音乐中的采样识别,最新的研究方向集中在利用深度学习技术,特别是卷积神经网络(CNNs),以及创建人工数据集以克服真实世界中训练数据的稀缺性。Cheston等人的研究展示了CNN在处理经过音频效果变换的采样识别任务上的潜力,并提出了一个由非商业音乐录音中提取的音频片段组成的“人工数据集”。该研究使用多损失训练方法,结合分类和度量学习损失,以提高模型对现实世界采样的识别精度。此外,该研究还探讨了模型架构、数据集配置、嵌入维度和损失函数等因素对采样识别性能的影响。这些发现为音乐信息检索和版权管理等领域提供了新的研究思路和方法。
相关研究论文
- 1Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset剑桥大学音乐与科学中心 · 2025年
以上内容由遇见数据集搜集并总结生成



