Fhrozen/FSD50k

Name: Fhrozen/FSD50k
Creator: Fhrozen
Published: 2022-05-27 08:50:25
License: 暂无描述

Hugging Face2022-05-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Fhrozen/FSD50k

下载链接

链接失效反馈

官方服务：

资源简介：

Freesound Dataset 50k (FSD50K) 是一个开放的人类标注声音事件数据集，包含51,197个音频片段，分布在200个类别中，这些类别来自AudioSet Ontology。数据集由巴塞罗那庞培法布拉大学音乐技术组创建，主要用于多标签声音事件分类任务。音频片段由人类手动标注，长度从0.3秒到30秒不等，提供了开发集和评估集，分别包含40,966和10,231个音频片段。所有音频片段以未压缩的PCM 16位44.1 kHz单声道音频文件提供，并附有详细的元数据和标签信息。

Freesound Dataset 50k (FSD50K) is an open human-annotated sound event dataset containing 51,197 audio clips spanning 200 categories derived from the AudioSet Ontology. Developed by the Music Technology Group at Pompeu Fabra University in Barcelona, this dataset is primarily intended for multi-label sound event classification tasks. All audio clips are manually annotated by humans, with durations ranging from 0.3 seconds to 30 seconds. The dataset is split into a development set and an evaluation set, comprising 40,966 and 10,231 audio clips respectively. All audio clips are provided as uncompressed PCM 16-bit 44.1 kHz mono audio files, accompanied by detailed metadata and label information.

提供机构：

Fhrozen

原始信息汇总

数据集概述

名称： Freesound Dataset 50k (FSD50K)

描述： FSD50K是一个包含51,197个人类标记的声音事件的开源数据集，这些事件不均匀地分布在200个类别中，这些类别是从AudioSet Ontology中抽取的。该数据集主要由物理声源和生产机制产生的声音事件组成，涵盖了人类声音、事物声音、动物、自然声音和音乐等主要家族。

基本特征：

包含51,197个音频片段，总计108.3小时音频。
音频内容由人类手动标记，使用Freesound Annotator平台进行数据标记。
音频片段长度从0.3秒到30秒不等，音频格式为未压缩的PCM 16位44.1 kHz单声道。
数据集主要是一个多标签声音事件分类问题，但也支持多种声音事件研究任务。
音频片段分为开发集（dev）和评估集（eval），确保两个集合中没有来自同一Freesound上传者的片段。

开发集（Dev Set）：

包含40,966个音频片段，总计80.4小时音频。
平均每片段时长：7.1秒。
提供训练/验证分割。

评估集（Eval Set）：

包含10,231个音频片段，总计27.9小时音频。
平均每片段时长：9.8秒。
评估集标签是详尽的，确保标签正确且完整。

许可证：

所有音频片段根据Freesound上传者定义的许可证发布，包括CC0, CC-BY, CC-BY-NC和CC Sampling+。
整个数据集FSD50K根据CC-BY许可证发布。

文件结构：

音频片段存储在clips/目录下，分为dev/和eval/子目录。
标签文件存储在labels/目录下，包括dev.csv和eval.csv。
词汇表文件vocabulary.csv列出了200个声音类别。
元数据文件存储在metadata/目录下，包括关于声音类别和音频片段的详细信息。

引用信息：

使用FSD50K数据集时，请引用论文：Eduardo Fonseca, Xavier Favory, Jordi Pons, Frederic Font, Xavier Serra. "FSD50K: an Open Dataset of Human-Labeled Sound Events", arXiv 2020.

搜集汇总

数据集介绍

构建方式

FSD50K数据集的构建主要围绕音频事件分类任务，其内容涵盖了物理声源和生成机制产生的声音事件。数据集从AudioSet Ontology中选取了200个类别，并利用Freesound Annotator平台进行人工标注，共计51,197个音频剪辑，总时长108.3小时。音频剪辑时长从0.3秒到30秒不等，以满足不同类别和Freesound用户录音偏好的多样性。数据集的标注过程严格遵循音频剪辑级别的弱标签标准，并通过向上传播的方式将标签扩展到整个音频集。

特点

FSD50K数据集的主要特点是多样性和丰富性。它包含来自AudioSet Ontology的200个声音类别，包括人类声音、物体声音、动物、自然声音和音乐等。数据集分为开发集和评估集，开发集包含40,966个音频剪辑，评估集包含10,231个音频剪辑。所有音频剪辑均以未压缩的PCM 16位44.1 kHz单声道音频文件形式提供。此外，数据集还包括额外的元数据文件，如类信息、剪辑信息、PP/PNP评分等，以便于分析和研究。

使用方法

使用FSD50K数据集的方法相对简单。首先，可以从HuggingFace平台下载数据集的zip文件。下载后，数据集将包含音频剪辑、标签文件、元数据文件等。用户可以根据需要选择开发集或评估集进行实验。在实验中，可以使用提供的基线系统作为参考，或自行设计模型进行音频事件分类任务。此外，还可以利用元数据文件中的信息进行更深入的分析和探索，如类信息、剪辑信息、PP/PNP评分等。

背景与挑战

背景概述

音频分类领域一直面临着数据集的多样性和丰富性不足的问题。为了解决这一问题，Freesound Dataset 50k (FSD50K) 数据集应运而生。该数据集由来自音乐技术组（Music Technology Group）的Eduardo Fonseca等研究人员于2020年创建，旨在提供一个包含人类标记的音频事件的大型开放数据集。FSD50K数据集从AudioSet本体论中选取了200个声音类别，包含了51,197个音频剪辑，总计108.3小时的音频内容。这些音频剪辑由人类通过Freesound Annotator平台进行手动标注，涵盖了从物理声音源到生产机制产生的各种声音事件，如人类声音、事物声音、动物声音、自然声音和音乐等。FSD50K数据集的创建不仅为音频事件分类问题提供了丰富的数据资源，同时也为声音事件研究任务提供了多样的可能性，如多标签声音事件分类、声音事件检测等。

当前挑战

尽管FSD50K数据集为音频分类领域提供了丰富的数据资源，但也面临着一些挑战。首先，FSD50K数据集的构建过程中，数据标注的一致性和完整性是保证数据质量的关键。其次，由于声音事件的多样性和复杂性，如何有效地提取和利用音频特征来提高分类准确性是一个重要的挑战。此外，FSD50K数据集还面临版权和许可的问题，需要遵守各个音频剪辑的原始许可协议。最后，如何将FSD50K数据集与其他音频数据集进行有效的整合和应用，以解决更广泛的音频处理问题，也是需要进一步研究的方向。

常用场景

经典使用场景

FSD50K 数据集作为一个开放的人类标注声音事件数据集，被广泛应用于音频分类任务。其包含的 51,197 个音频剪辑和 200 个声音类别，为研究人员提供了一个丰富的资源来开发和评估音频分类模型。此外，FSD50K 还可用于音频分割、音频检索、音频合成等多种音频事件研究任务，为音频信息处理领域提供了宝贵的数据基础。

衍生相关工作

FSD50K 数据集的发布，催生了一系列相关的研究工作。例如，研究人员利用 FSD50K 数据集开发了一系列音频分类模型，如基于深度学习的卷积神经网络模型，以及基于传统机器学习的支持向量机模型等。这些模型在 FSD50K 数据集上的表现，为音频分类技术的评估和比较提供了依据。此外，FSD50K 的多标签特性还促使研究人员探索了多标签音频分类算法，以及音频分割、音频检索等音频事件研究任务。这些研究工作的开展，推动了音频信息处理领域的发展，为音频分类技术的实际应用提供了理论和技术支持。

数据集最近研究