yangwang825/audioset

Name: yangwang825/audioset
Creator: yangwang825
Published: 2023-09-18 11:19:55
License: 暂无描述

Hugging Face2023-09-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yangwang825/audioset

下载链接

链接失效反馈

官方服务：

资源简介：

AudioSet包含一个不断扩展的527个音频事件类别的本体论，以及从YouTube中提取的200万个人工标记的10秒音频剪辑集合。由于部分剪辑在YouTube上缺失，因此下载的文件数量会有所不同。该仓库包含了平衡训练集的20550/22160个文件，非平衡训练集的1913637/2041789个文件（分为41部分），以及评估集的18887/20371个文件。为了提高训练效率，还添加了一个稍微更平衡的子集AudioSet500K。

AudioSet includes an expanding ontology of 527 audio event classes, as well as a collection of 2 million manually labeled 10-second audio clips extracted from YouTube. The number of downloaded files may vary, as some clips are no longer available on YouTube. This repository contains 20550/22160 files for the balanced training set, 1913637/2041789 files for the unbalanced training set (split into 41 parts), and 18887/20371 files for the evaluation set. To improve training efficiency, a slightly more balanced subset named AudioSet500K has also been added.

提供机构：

yangwang825

原始信息汇总

AudioSet 数据集概述

数据集配置

AudioSet 数据集包含多个配置，每个配置对应不同的数据文件和分割：

audioset500k:
- 训练集: audioset500k.json
balanced_train:
- 训练集: balanced_train.json
eval:
- 测试集: eval.json
unbalanced_train_part00 至 unbalanced_train_part40:
- 每个部分对应一个 JSON 文件，例如 unbalanced_train_part00.json 至 unbalanced_train_part40.json

数据集描述

AudioSet 包含 527 个音频事件类别的扩展本体和从 YouTube 抽取的 200 万个 10 秒长的人工标注声音片段。部分片段在 YouTube 上缺失，因此下载的文件数量会有所不同。

该数据集包括：

平衡训练集的 20550 / 22160 个文件
不平衡训练集的 1913637 / 2041789 个文件（分为 41 个部分）
评估集的 18887 / 20371 个文件

为了提高训练效率，增加了稍微更平衡的子集 AudioSet500K。

参考文献

Gemmeke, Jort F., et al., Audio set: An ontology and human-labeled dataset for audio events, 2017
Kong, Qiuqiang, et al., Panns: Large-scale pretrained audio neural networks for audio pattern recognition, 2020
Nagrani, Arsha, et al., Attention bottlenecks for multimodal fusion, 2021

搜集汇总

数据集介绍

构建方式

AudioSet数据集的构建，是基于YouTube平台上的2M个人工标注的10秒音频片段，涵盖了527个音频事件类别。数据集分为平衡训练集、不平衡训练集以及评估集，其中不平衡训练集进一步细分为41个部分，以适应不同训练需求和计算资源限制。该数据集的构建旨在为音频事件识别提供广泛而全面的基准资源。

使用方法

使用AudioSet数据集时，用户可以根据不同的训练需求选择平衡或是不平衡的训练集。数据集提供了JSON格式的文件，可以通过相应的预处理脚本加载。对于评估，用户可以使用提供的评估集来测试模型的性能。此外，数据集的构建者还提供了相关的预处理脚本和预训练模型，以帮助研究者和开发者更高效地进行音频识别任务的研究和开发。

背景与挑战

背景概述

AudioSet数据集，创建于2017年，是由Jort F. Gemmeke等研究人员构建的，包含了一个不断扩展的527个音频事件类别的本体和一个由人类标注的2M个10秒声音片段组成的集合，这些片段主要来源于YouTube。该数据集在音频事件识别领域具有重大影响力，为研究者提供了一个丰富的资源，以促进音频理解和分类技术的进步。

当前挑战

AudioSet数据集在构建和应用过程中面临诸多挑战。首先，由于YouTube上部分音频片段的缺失，导致可下载的文件数量不定，这为数据集的完整性带来了挑战。其次，数据集的规模巨大，包含多个不平衡的训练部分，如何有效管理和处理这些数据，以及如何在不平衡的数据上实现准确的模型训练是另一个挑战。此外，为了提高训练效率，数据集还引入了一个稍微更平衡的子集AudioSet500K，如何在保持数据集代表性的同时，提高训练效率和模型性能，也是研究者和工程师需要克服的问题。

常用场景

经典使用场景

在音频事件分类领域，AudioSet数据集的经典使用场景是对音频片段进行标注和识别，以实现对527种不同音频事件的分类。该数据集提供了大量经过人类标注的音频片段，为构建和训练音频识别模型提供了丰富的资源。

解决学术问题

AudioSet数据集解决了音频事件分类中的标注不均衡、数据量不足以及标注质量等问题，为学术研究提供了高质量、大规模的标注数据，有助于提升音频识别算法的性能和泛化能力。

实际应用

在实际应用中，AudioSet数据集广泛应用于智能语音助手、智能家居、环境监测等领域，通过对环境声音的实时识别，为用户提供更加智能和个性化的服务。

数据集最近研究