agkphysics/AudioSet

Name: agkphysics/AudioSet
Creator: agkphysics
Published: 2024-02-03 12:09:42
License: 暂无描述

Hugging Face2024-02-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/agkphysics/AudioSet

下载链接

链接失效反馈

官方服务：

资源简介：

AudioSet是一个包含来自YouTube的10秒音频片段的数据集，这些片段根据AudioSet本体论标注了一个或多个声音类别。数据集支持音频分类任务，分为平衡和不平衡两种配置，分别包含不同数量的训练和测试实例。数据字段包括视频ID、音频数据、标签和人类可读标签。数据集的语言为英语，许可证为CC-BY-4.0。

提供机构：

agkphysics

原始信息汇总

数据集概述

数据集名称: AudioSet

任务类别: 音频分类

数据集大小:

10K<n<100K
1M<n<10M

源数据: 原始数据

许可证: CC-BY-4.0

数据集结构

数据实例

字段:
- video_id: 字符串，YouTube视频ID。
- audio: 音频数据，包含路径、数组和采样率。
- labels: 字符串序列，音频分类标签。
- human_labels: 字符串序列，人类可读的标签。

数据分割

平衡配置:
- 训练集: 18685个实例
- 测试集: 17142个实例
不平衡配置:
- 训练集: 1738788个实例
- 测试集: 17142个实例

数据集创建

源语言生产者: 标签来自AudioSet本体，音频剪辑来自YouTube。

许可证信息: AudioSet数据根据CC-BY-4.0许可。

引用信息

bibtex @inproceedings{jort_audioset_2017, title = {Audio Set: An ontology and human-labeled dataset for audio events}, author = {Jort F. Gemmeke and Daniel P. W. Ellis and Dylan Freedman and Aren Jansen and Wade Lawrence and R. Channing Moore and Manoj Plakal and Marvin Ritter}, year = {2017}, booktitle = {Proc. IEEE ICASSP 2017}, address = {New Orleans, LA} }

搜集汇总

数据集介绍

构建方式

在音频事件识别领域，AudioSet数据集的构建体现了大规模多媒体数据采集与标注的典范。该数据集从YouTube平台提取了数百万段10秒音频片段，依据AudioSet本体论进行多标签分类标注。构建过程涉及自动化的音频提取与人工审核相结合的策略，确保了数据来源的多样性与标注的准确性。尽管部分原始音频因版权或时效性问题未能完全保留，但通过FLAC格式的高质量存储，数据集依然维持了约48kHz采样率的音频保真度，为研究提供了坚实的实验基础。

特点

AudioSet数据集以其广泛的音频类别覆盖和丰富的实例数量著称，涵盖了从自然声音到人工声响的632个类别。数据集提供平衡与非平衡两种配置，平衡配置包含约1.8万训练样本，侧重于类别均衡；非平衡配置则囊括超过170万样本，更贴近真实世界的数据分布。每个音频片段均附有机器可读的标签及对应的人类可读描述，如“语音”或“喷涌声”，支持多标签分类任务，且数据以标准化格式存储，便于直接加载与分析。

使用方法

使用AudioSet数据集时，研究者可通过HuggingFace平台便捷访问其平衡、非平衡或完整版本。数据以parquet文件形式组织，包含训练与测试分割，用户可利用音频处理库直接加载FLAC格式的音频数组及对应标签。该数据集适用于音频分类模型的训练与评估，支持端到端的深度学习流程。鉴于部分原始音频缺失，建议在实验设计中考虑数据完整性，并依据CC-BY-4.0许可规范引用，以推动音频事件检测领域的创新研究。

背景与挑战

背景概述

AudioSet数据集由谷歌研究团队于2017年构建，旨在为音频事件识别领域提供大规模、多类别的标注资源。该数据集从YouTube平台采集了数百万段10秒音频片段，并依据精心设计的音频本体论进行多标签标注，覆盖了从自然环境声音到人类活动声景的广泛类别。其核心研究问题聚焦于如何实现复杂声学场景的细粒度识别与理解，为音频信号处理、机器学习模型训练及跨模态研究奠定了重要基础，显著推动了环境声音分类、音频事件检测等相关领域的发展。

当前挑战

AudioSet面临的挑战主要体现在两个方面：在领域问题层面，音频事件识别本身具有高度复杂性，声学场景中常存在多种声音重叠、背景噪声干扰以及时间动态变化，这要求模型具备强大的特征分离与上下文建模能力；在构建过程中，数据采集依赖于YouTube视频，部分原始音频因版权或下架而无法获取，导致数据完整性受损，同时标注过程需处理大规模音频的多标签注释，确保标注一致性与本体论覆盖的全面性亦是一项艰巨任务。

常用场景

经典使用场景

在音频事件检测领域，AudioSet凭借其大规模、多标签的音频片段标注，成为训练和评估深度学习模型的基准资源。研究者广泛利用该数据集构建卷积神经网络或Transformer架构，对音频信号进行自动分类，识别其中包含的数百种声音类别，如音乐、语音或环境声响。这种应用不仅推动了音频理解技术的进步，也为多模态学习提供了关键的声学特征基础。

实际应用

在实际应用中，AudioSet训练的模型已广泛应用于智能监控、内容审核与辅助技术等领域。例如，在智能家居系统中，基于该数据集开发的声学模型可实时识别婴儿啼哭或玻璃破碎等特定声音，触发安防警报。媒体平台则利用此类技术自动标注视频内容，实现音频驱动的版权管理与内容推荐，显著提升了多媒体信息处理的自动化水平与用户体验。

衍生相关工作

围绕AudioSet衍生的经典工作包括PANNs等端到端音频神经网络，以及基于注意力机制的多实例学习框架。这些研究不仅刷新了数据集上的性能基准，更催生了通用音频表示学习模型，如Audio-MAE，其通过自监督预训练提取跨任务的声学特征。此外，该数据集也促进了音频-视觉跨模态对齐技术的探索，为视频理解、声音分离等任务提供了重要的算法灵感与评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集