yangwang825/audioset
收藏Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yangwang825/audioset
下载链接
链接失效反馈官方服务:
资源简介:
AudioSet包含一个不断扩展的527个音频事件类别的本体论,以及从YouTube中提取的200万个人工标记的10秒音频剪辑集合。由于部分剪辑在YouTube上缺失,因此下载的文件数量会有所不同。该仓库包含了平衡训练集的20550/22160个文件,非平衡训练集的1913637/2041789个文件(分为41部分),以及评估集的18887/20371个文件。为了提高训练效率,还添加了一个稍微更平衡的子集AudioSet500K。
AudioSet includes an expanding ontology of 527 audio event classes, as well as a collection of 2 million manually labeled 10-second audio clips extracted from YouTube. The number of downloaded files may vary, as some clips are no longer available on YouTube. This repository contains 20550/22160 files for the balanced training set, 1913637/2041789 files for the unbalanced training set (split into 41 parts), and 18887/20371 files for the evaluation set. To improve training efficiency, a slightly more balanced subset named AudioSet500K has also been added.
提供机构:
yangwang825
原始信息汇总
AudioSet 数据集概述
数据集配置
AudioSet 数据集包含多个配置,每个配置对应不同的数据文件和分割:
-
audioset500k:
- 训练集:
audioset500k.json
- 训练集:
-
balanced_train:
- 训练集:
balanced_train.json
- 训练集:
-
eval:
- 测试集:
eval.json
- 测试集:
-
unbalanced_train_part00 至 unbalanced_train_part40:
- 每个部分对应一个 JSON 文件,例如
unbalanced_train_part00.json至unbalanced_train_part40.json
- 每个部分对应一个 JSON 文件,例如
数据集描述
AudioSet 包含 527 个音频事件类别的扩展本体和从 YouTube 抽取的 200 万个 10 秒长的人工标注声音片段。部分片段在 YouTube 上缺失,因此下载的文件数量会有所不同。
该数据集包括:
- 平衡训练集的 20550 / 22160 个文件
- 不平衡训练集的 1913637 / 2041789 个文件(分为 41 个部分)
- 评估集的 18887 / 20371 个文件
为了提高训练效率,增加了稍微更平衡的子集 AudioSet500K。
参考文献
- Gemmeke, Jort F., et al., Audio set: An ontology and human-labeled dataset for audio events, 2017
- Kong, Qiuqiang, et al., Panns: Large-scale pretrained audio neural networks for audio pattern recognition, 2020
- Nagrani, Arsha, et al., Attention bottlenecks for multimodal fusion, 2021
搜集汇总
数据集介绍

构建方式
AudioSet数据集的构建,是基于YouTube平台上的2M个人工标注的10秒音频片段,涵盖了527个音频事件类别。数据集分为平衡训练集、不平衡训练集以及评估集,其中不平衡训练集进一步细分为41个部分,以适应不同训练需求和计算资源限制。该数据集的构建旨在为音频事件识别提供广泛而全面的基准资源。
使用方法
使用AudioSet数据集时,用户可以根据不同的训练需求选择平衡或是不平衡的训练集。数据集提供了JSON格式的文件,可以通过相应的预处理脚本加载。对于评估,用户可以使用提供的评估集来测试模型的性能。此外,数据集的构建者还提供了相关的预处理脚本和预训练模型,以帮助研究者和开发者更高效地进行音频识别任务的研究和开发。
背景与挑战
背景概述
AudioSet数据集,创建于2017年,是由Jort F. Gemmeke等研究人员构建的,包含了一个不断扩展的527个音频事件类别的本体和一个由人类标注的2M个10秒声音片段组成的集合,这些片段主要来源于YouTube。该数据集在音频事件识别领域具有重大影响力,为研究者提供了一个丰富的资源,以促进音频理解和分类技术的进步。
当前挑战
AudioSet数据集在构建和应用过程中面临诸多挑战。首先,由于YouTube上部分音频片段的缺失,导致可下载的文件数量不定,这为数据集的完整性带来了挑战。其次,数据集的规模巨大,包含多个不平衡的训练部分,如何有效管理和处理这些数据,以及如何在不平衡的数据上实现准确的模型训练是另一个挑战。此外,为了提高训练效率,数据集还引入了一个稍微更平衡的子集AudioSet500K,如何在保持数据集代表性的同时,提高训练效率和模型性能,也是研究者和工程师需要克服的问题。
常用场景
经典使用场景
在音频事件分类领域,AudioSet数据集的经典使用场景是对音频片段进行标注和识别,以实现对527种不同音频事件的分类。该数据集提供了大量经过人类标注的音频片段,为构建和训练音频识别模型提供了丰富的资源。
解决学术问题
AudioSet数据集解决了音频事件分类中的标注不均衡、数据量不足以及标注质量等问题,为学术研究提供了高质量、大规模的标注数据,有助于提升音频识别算法的性能和泛化能力。
实际应用
在实际应用中,AudioSet数据集广泛应用于智能语音助手、智能家居、环境监测等领域,通过对环境声音的实时识别,为用户提供更加智能和个性化的服务。
数据集最近研究
最新研究方向
在音频事件识别领域,AudioSet数据集以其庞大的标注音频事件类别和精细的标注质量成为研究的热点。近期研究集中于提升模型对于音频事件识别的准确性和效率,如通过神经网络模型对音频片段进行精确分类。AudioSet500K子集的提出,进一步促进了大规模预训练模型的发展,使得音频模式识别研究得以深入。此外,注意力瓶颈技术被应用于多模态融合研究中,显著提升了音频与视频信息联合处理的效果,为智能音频处理领域带来了新的研究视角和技术突破。
以上内容由遇见数据集搜集并总结生成



