Broad Sound Dataset (BSD10k)
收藏arXiv2024-10-02 更新2024-10-04 收录
下载链接:
https://github.com/allholy/BSD10k
下载链接
链接失效反馈官方服务:
资源简介:
Broad Sound Dataset (BSD10k) 是由音乐技术组,庞培法布拉大学创建的一个包含10,000个声音样本的数据集。该数据集与Broad Sound Taxonomy (BST)的第二级类别对齐,涵盖了音乐、乐器样本、语音、音效和声景等28个类别。数据集的创建过程包括从Freesound网站获取声音样本,并通过手动注释确保准确性和多样性。BSD10k旨在解决异质声音分类问题,适用于机器听觉、声音分析和检索等多个领域。
Broad Sound Dataset (BSD10k) is a dataset containing 10,000 audio samples, created by the Music Technology Group at Pompeu Fabra University. This dataset is aligned with the second-level categories of the Broad Sound Taxonomy (BST), covering 28 categories including music, musical instrument samples, speech, sound effects and sound scenes. The dataset was constructed by acquiring audio samples from the Freesound website, and ensured accuracy and diversity through manual annotation. BSD10k aims to address the problem of heterogeneous sound classification, and is applicable to multiple fields such as machine hearing, sound analysis and retrieval.
提供机构:
音乐技术组,庞培法布拉大学,巴塞罗那,西班牙
创建时间:
2024-10-02
原始信息汇总
BSD10k 数据集概述
数据集简介
BSD10k 数据集是 Broad Sound Dataset (BSD) 的初始版本,包含约 10,000 个标注声音,与 BST 分类法的第二级类别对齐。
数据集特征
- 音频数量: 10,309 个音频片段
- 总时长: 32.5 小时
- 音频格式: 单标签音频,每个音频最长 30 秒
- 标注方式: 人工手动标注
- 分类类别: 23 个类别,对应 BST 分类法的第二级类别
- 元数据文件: BSD10k_metadata.csv,包含音频的训练和测试集划分、许可证信息、标签和标题
- 类别分布: 类别间音频数量不均等
分类法
Broad Sound Taxonomy (BST) 将声音组织成一个两级层次结构,包含 5 个顶级类别和 23 个第二级类别。分类法旨在广泛、全面地分类各种声音,并易于使用。
音频数据
- 原始文件: 从 Freesound 下载
- 标准化格式: 44.1 kHz 16-bit 单声道音频文件,超过 30 秒的音频被裁剪
- 下载链接: 下载 BSD10k 数据集
许可证
- 整体许可证: CC-BY
- 单个音频许可证: 每个音频文件的许可证由上传者在 Freesound 定义,可能包括 CC0、CC-BY、CC-BY-NC、CC Sampling+ 等
- 许可证分布:
- CC0: 3,187
- CC-BY: 5,534
- CC-BY-NC: 1,192
- CC Sampling+: 396
- 元数据文件: BSD10k_metadata.csv 中包含每个音频的许可证信息
搜集汇总
数据集介绍

构建方式
Broad Sound Dataset (BSD10k) 的构建过程始于从 Freesound 网站上收集的超过 650,000 个声音文件,这些文件涵盖了广泛的声学场景和事件。研究团队首先筛选出约 60,000 个候选声音,并利用其原始数据集的标签和信号处理技术(如起始检测)将其映射到 Broad Sound Taxonomy (BST) 的顶层类别。随后,通过手动注释工具,研究人员对这些候选声音进行了详细的第二层类别注释,确保了数据集的准确性和多样性。最终,经过三个月的努力,形成了包含 10,309 个声音文件的 BSD10k 数据集,总时长为 32.5 小时。
特点
BSD10k 数据集的显著特点在于其广泛的声音类别覆盖和高度异质性。该数据集基于 Broad Sound Taxonomy (BST),包含 28 个类别,涵盖了从音乐、乐器样本到环境声音和特效等多种声音类型。每个类别内部具有显著的变异性,反映了真实世界声音的复杂性。此外,数据集的非均匀类分布和声音质量的多样性,为研究提供了丰富的挑战和机遇,有助于开发能够适应不同声学环境的分类系统。
使用方法
BSD10k 数据集适用于多种声学分类和场景理解任务。研究者可以利用该数据集训练和评估声学分类模型,特别是那些旨在处理高类内变异性的模型。数据集的层次结构和详细的注释信息,使得它非常适合于探索不同层次的分类任务,从顶层类别到更细粒度的第二层类别。此外,BSD10k 的开源性质和公开访问权限,使其成为声学研究社区的宝贵资源,支持跨领域的声学数据分析和应用开发。
背景与挑战
背景概述
Broad Sound Dataset (BSD10k) 是由Music Technology Group, Universitat Pompeu Fabra的研究团队创建的一个用于异质声音分类的数据集。该数据集的核心研究问题是如何有效地分类具有高度类内变异性的异质声音。BSD10k的创建旨在填补现有声音分类数据集在处理广泛声音类型上的不足,特别是那些具有复杂语义和声学特征的声音。通过手动注释,BSD10k确保了数据的高准确性和多样性,为机器听觉领域的研究提供了宝贵的资源。该数据集的发布不仅推动了声音分类技术的发展,还为相关领域的研究提供了新的基准。
当前挑战
BSD10k在构建过程中面临的主要挑战包括数据的不均衡分布和类内变异性的处理。数据集中的某些类别拥有超过1,000个样本,而其他类别仅有约100个样本,这种不均衡性增加了分类任务的难度。此外,由于声音类别的语义和声学特征的高度变异性,模型在区分这些类别时面临显著困难。研究团队通过引入多种机器学习方法和深度神经网络模型来应对这些挑战,但如何更有效地捕捉声音的语义和声学信息,以及如何在实际应用中实现更好的泛化能力,仍然是该数据集面临的主要问题。
常用场景
经典使用场景
Broad Sound Dataset (BSD10k) 的经典使用场景主要集中在异质声音分类任务中。该数据集通过其广泛的声学类别和丰富的语义信息,为研究人员提供了一个强大的工具,用于评估和开发自动声音分类系统。特别是在机器听觉领域,BSD10k 被广泛用于训练和测试各种机器学习模型,如 k-NN 分类器和深度神经网络,以实现对复杂声音环境的准确分类。
实际应用
在实际应用中,BSD10k 数据集被广泛用于开发和优化各种声音处理系统。例如,在智能家居和智能城市项目中,该数据集用于训练能够识别和分类环境声音的算法,从而实现更智能的音频监控和响应系统。此外,BSD10k 还支持声音设计、音乐检索和多媒体内容分析等领域的应用,通过提供高质量的标注数据,帮助提升这些领域的技术水平和用户体验。
衍生相关工作
BSD10k 数据集的发布和应用催生了多项相关经典工作。例如,基于该数据集的研究推动了深度学习在音频分类中的应用,特别是通过预训练的深度神经网络(如 VGGish 和 FSD-SINet)提取音频嵌入,显著提高了分类性能。此外,BSD10k 还促进了对比学习技术的发展,如 CLAP 架构,该技术通过联合音频和语言嵌入空间,进一步提升了声音分类的准确性和语义理解能力。
以上内容由遇见数据集搜集并总结生成



