Fhrozen/AudioSet2K22

Name: Fhrozen/AudioSet2K22
Creator: Fhrozen
Published: 2023-05-07 23:50:56
License: 暂无描述

Hugging Face2023-05-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Fhrozen/AudioSet2K22

下载链接

链接失效反馈

官方服务：

资源简介：

AudioSet本体是一个按层次组织的声音事件集合，涵盖了从人类和动物声音到自然和环境声音，再到音乐和杂项声音的广泛日常声音。该仓库仅包含DCASE 2022 - 任务3的音频文件。包含的标签有限，如女性说话、男性说话、鼓掌、电话、电话铃声、铃声、笑声、家庭声音、吸尘器、水壶哨声、机械风扇、脚步声、门声、橱柜开关、音乐、背景音乐、流行音乐、乐器、原声吉他、马林巴琴、木琴、牛铃、钢琴、电钢琴、摇铃、水龙头、铃铛、自行车铃铛、钟声、敲门声等。数据集可用于训练声音事件检测/定位模型，录音仅包括单声道音频，定位任务需要应用RIR信息。

The AudioSet corpus is a hierarchically organized collection of sound events, covering a wide range of daily sounds ranging from human and animal sounds, natural and environmental sounds to musical and miscellaneous sounds. This repository only contains the audio files for DCASE 2022 Task 3. The dataset includes a limited set of labels, such as female speech, male speech, applause, telephone, telephone ringtone, ringing sound, laughter, household sounds, vacuum cleaner, kettle whistle, mechanical fan, footsteps, door sounds, cabinet switches, music, background music, pop music, musical instruments, acoustic guitar, marimba, xylophone, cowbell, piano, electric piano, handbell, faucet, bell, bicycle bell, chime, and knock sounds. This dataset can be used to train sound event detection and localization models. All recordings only contain monaural audio, and RIR information is required for the localization task.

提供机构：

Fhrozen

原始信息汇总

数据集概述

数据集描述

数据集总结

名称: AudioSet2022
内容: 包含特定音频文件，主要用于DCASE 2022 - Task 3。
标签: 包括女性演讲、男性演讲、拍手、电话铃声等特定声音事件。

支持的任务和排行榜

任务: 音频分类
用途: 用于训练声音事件检测/定位模型。

语言

语言: 无

数据集结构

数据实例

状态: 进行中

数据字段

file: 音频文件的下载路径，格式为.mp3。

数据分割

分割: 弱标签和强标签
包含: 仅包含不平衡训练列表的音频文件。

数据集创建

数据集策展人

策展人: Nelson Yalta (nelson.yalta@ieee.org)

许可信息

许可: CC BY-SA 4.0

引用信息

@inproceedings{45857, title = {Audio Set: An ontology and human-labeled dataset for audio events}, author = {Jort F. Gemmeke and Daniel P. W. Ellis and Dylan Freedman and Aren Jansen and Wade Lawrence and R. Channing Moore and Manoj Plakal and Marvin Ritter}, year = {2017}, booktitle = {Proc. IEEE ICASSP 2017}, address = {New Orleans, LA} }

搜集汇总

数据集介绍

构建方式

在音频事件分类研究领域，数据集的构建方式直接影响模型的泛化能力。Fhrozen/AudioSet2K22数据集基于AudioSet本体论，该本体论通过层次化结构组织日常声音事件，涵盖人类与动物声音、自然环境声响及音乐等多种类别。本数据集专门针对DCASE 2022任务三设计，收录了单声道音频文件，其标注过程遵循严格的音频事件识别标准，尽管具体标注流程与数据来源在现有文档中尚未详细披露，但其构建依托于经过学术验证的AudioSet框架，确保了数据在音频分类任务中的科学性与实用性。

特点

该数据集在音频机器学习领域展现出鲜明的技术特色。其核心特征在于聚焦有限但具代表性的声音类别，如男女语音、拍手声、电话铃声及各类乐器声音等，这些类别经过精心筛选，覆盖日常与音乐场景中的关键音频事件。数据集仅包含不平衡训练集中的音频文件，并区分弱标签与强标签两种分割方式，为声音事件检测与定位任务提供了结构化数据基础。单声道音频格式的设计简化了处理流程，同时要求定位任务需结合房间脉冲响应信息，体现了其在复杂音频环境下的应用潜力。

使用方法

在音频信号处理研究中，本数据集为声音事件分类任务提供了直接支持。使用者可通过加载提供的MP3格式音频文件，结合对应的弱标签或强标签分割，构建监督学习模型。针对声音事件检测任务，建议预处理环节统一音频采样率与时长，并利用标注信息训练深度神经网络分类器；若涉及声音定位研究，则需额外引入空间音频模拟技术以补充单声道数据的局限性。数据遵循CC BY-SA 4.0许可，允许学术与衍生使用，但需注意文档中部分元信息缺失可能影响特定场景下的可复现性。

背景与挑战

背景概述

音频事件检测作为计算听觉场景分析的核心分支，旨在识别和定位音频流中的特定声音事件。AudioSet数据集由谷歌研究团队于2017年创建，其构建基于一个层次化的声音本体论，涵盖了从人声、动物叫声到环境音与音乐声的广泛日常声音类别。该数据集通过大规模人工标注，为音频分类与检测任务提供了丰富的监督信息，极大地推动了声音场景理解、多媒体内容分析等领域的研究进展，成为音频机器学习领域的基准资源之一。

当前挑战

AudioSet数据集所针对的音频事件检测任务面临多重挑战：声音事件的类内多样性高，同一类别的声音在不同环境、设备下呈现显著差异；类间相似性明显，不同类别的声音在时频特征上可能高度重叠；背景噪声与混响干扰严重，影响模型的鲁棒性与泛化能力。在数据集构建过程中，标注过程依赖人工听辨，存在主观性与一致性难题；音频来源多样，质量参差不齐，需进行复杂的归一化处理；此外，数据规模庞大，存储、管理与分布式访问亦构成工程上的挑战。

常用场景

经典使用场景

在音频事件检测领域，Fhrozen/AudioSet2K22数据集常被用于训练和评估声音分类模型。该数据集聚焦于日常生活中的多种声音事件，如人声、脚步声、乐器声等，为研究者提供了一个结构化的音频标注资源。通过弱标签和强标签的划分，它支持声音事件检测与定位任务的模型开发，尤其在单声道音频环境下，为算法性能的基准测试奠定了坚实基础。

解决学术问题

该数据集有效解决了音频事件检测中数据稀缺和标注不一致的学术难题。通过提供层次化的声音本体和精细的标签体系，它促进了声音事件分类、定位及跨场景泛化等核心研究方向的进展。其丰富的音频样本和明确的类别划分，为探索声音信号的时空特征提取、多标签学习机制提供了可靠的数据支撑，推动了音频智能处理领域的理论深化与技术突破。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，特别是在DCASE（声学场景和事件检测与分类）竞赛任务中。许多团队利用其弱标签数据开发了半监督或自监督学习框架，以提升声音事件检测的鲁棒性。此外，结合生成对抗网络或跨模态学习的方法，也进一步拓展了音频表示学习的边界，为声音本体构建和实时检测系统的优化提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集