FSD50K

arXiv2022-04-24 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2010.00475v2

下载链接

链接失效反馈

官方服务：

资源简介：

FSD50K是一个包含超过51,000个音频剪辑，总计超过100小时音频的手动标注开放数据集，使用200个来自AudioSet Ontology的类别。音频剪辑根据创意共享许可发布，使得数据集可以自由分发（包括波形）。

FSD50K is a manually annotated open dataset consisting of over 51,000 audio clips with a total audio duration exceeding 100 hours, which employs 200 categories derived from the AudioSet Ontology. All audio clips are released under Creative Commons licenses, enabling free distribution of the dataset including its waveform files.

创建时间：

2020-10-01

搜集汇总

数据集介绍

构建方式

在音频事件识别领域，构建大规模、高质量数据集是推动算法发展的关键。FSD50K数据集通过精心设计的流程，从Freesound平台采集音频片段，并依据AudioSet本体构建标注体系。其构建过程始于自动化的候选标签提名，利用用户提供的标签与预定义关键词匹配，初步筛选出超过26万条音频片段。随后，通过人工验证任务，采用众包与专业标注员结合的方式，对候选标签进行精细化审核，确保标注的准确性与一致性。特别注重评估集的构建，采用上传者非分割原则，避免数据污染，并通过迭代分配策略，确保评估集在类别分布与数据多样性上的平衡。最终，经过标签细化与后处理，形成包含5.1万条音频、覆盖200个类别的开放数据集。

特点

FSD50K数据集在音频事件识别领域展现出多项独特优势。其音频片段源自Freesound平台，均采用知识共享许可协议，确保数据的开放性与可分发性，包括原始波形文件，为研究提供了极大灵活性。数据集涵盖200个日常声音类别，源自AudioSet本体，具有层次化结构，支持多标签分类任务。评估集经过详尽标注，标签正确性与完整性较高，适用于可靠的系统基准测试。音频片段长度在0.3至30秒之间可变，包含从强标签到弱标签的多种监督强度，模拟了真实场景中声音事件的多样性。此外，数据集提供了事件主导性标注（如“主要存在”与“非主要存在”），有助于研究声音事件的显著性差异。

使用方法

FSD50K数据集适用于多种音频事件识别任务，尤其在大词汇量多标签分类研究中具有重要价值。研究人员可直接使用提供的音频波形与层次化标签，开发与评估深度学习模型。对于可变长度音频，可采用固定时长切片处理，或利用全卷积网络等架构直接处理原始长度。数据集的开发集与评估集已预先分割，且评估集标签较为完备，适合作为模型泛化能力的测试基准。此外，数据集与AudioSet共享本体，支持跨数据集域适应研究。用户还可利用提供的元数据（如Freesound标签）探索多模态学习方法，或基于事件主导性标注研究声音分离与检测任务。数据集的开放性与稳定性，使其成为推动音频事件识别研究的重要资源。

背景与挑战

背景概述

FSD50K数据集由巴塞罗那庞培法布拉大学音乐技术组于2022年正式发布，旨在为声音事件识别领域提供一个开放且大规模的人工标注基准。该数据集包含超过5.1万个音频片段，总时长逾100小时，涵盖从AudioSet本体中选取的200个声音类别，所有音频均采用知识共享许可协议，确保波形数据的自由分发。FSD50K的创建响应了声音事件识别研究中大规模开放数据集的稀缺问题，尤其针对AudioSet因依赖YouTube视频而存在的稳定性与可访问性局限，致力于推动通用声音识别模型的开发与评估。

当前挑战

FSD50K面临的挑战主要体现在两方面：在领域问题层面，该数据集致力于解决大规模开放声音事件分类的基准缺失问题，需应对多标签分类中类别不平衡、音频长度可变性以及弱标注带来的标签密度噪声等挑战；在构建过程中，挑战包括从Freesound平台海量异构音频中筛选高质量样本，设计高效的人工标注流程以平衡标注质量与规模，以及通过上传者隔离策略避免数据污染以确保评估集的可靠性。此外，标注过程中还需处理声音类别的语义模糊性以及音频内容中多事件共存带来的标注复杂性。

常用场景

经典使用场景

在音频信号处理领域，FSD50K数据集作为大规模开放音频标注资源，其经典应用场景集中于多标签声音事件分类任务。该数据集通过提供超过5.1万个音频片段和200个基于AudioSet本体的类别标签，为研究者构建和评估深度学习模型提供了标准化基准。在声音事件识别研究中，FSD50K常被用于训练卷积神经网络和循环神经网络架构，以识别日常环境中的复杂声学事件组合，其可变长度的音频片段和弱标签标注方式，使得模型能够学习从简短孤立声音到长时间混合音频的泛化表征能力。

衍生相关工作

FSD50K数据集催生了声音事件识别领域的系列经典研究工作。基于其前身FSDnoisy18k和FSDKaggle2019数据集，研究者开发了多种噪声标签学习方法和领域自适应技术。在DCASE挑战赛中，该数据集支撑了2018年通用音频标注、2019年噪声标签学习和2020年声音事件检测等多个竞赛任务，推动了弱监督学习和多任务学习算法的发展。衍生研究包括基于教师-学生框架的缺失标签处理、层次化声音分类模型构建，以及跨模态音频-文本联合表征学习等工作。这些成果不仅完善了声音事件识别的技术体系，也为音频分离、声音场景理解等相邻领域提供了重要参考。

数据集最近研究