confit/fsdkaggle2019-demo
收藏Hugging Face2024-03-28 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/confit/fsdkaggle2019-demo
下载链接
链接失效反馈官方服务:
资源简介:
FSDKaggle2019是一个音频数据集,包含29,266个音频文件,标注了80个AudioSet Ontology的标签。该数据集用于DCASE Challenge 2019 Task 2,并在Kaggle上作为Freesound Audio Tagging 2019竞赛使用。所有音频剪辑以未压缩的PCM 16 bit, 44.1 kHz, 单声道格式提供。数据集分为Curated和Noisy两个配置,每个配置包含训练集和测试集。Curated配置包含4,970个训练剪辑和4,481个测试剪辑,Noisy配置包含19,815个训练剪辑和4,481个测试剪辑。
FSDKaggle2019是一个音频数据集,包含29,266个音频文件,标注了80个AudioSet Ontology的标签。该数据集用于DCASE Challenge 2019 Task 2,并在Kaggle上作为Freesound Audio Tagging 2019竞赛使用。所有音频剪辑以未压缩的PCM 16 bit, 44.1 kHz, 单声道格式提供。数据集分为Curated和Noisy两个配置,每个配置包含训练集和测试集。Curated配置包含4,970个训练剪辑和4,481个测试剪辑,Noisy配置包含19,815个训练剪辑和4,481个测试剪辑。
提供机构:
confit
原始信息汇总
数据集概述
数据集名称
FSDKaggle2019
数据集描述
FSDKaggle2019是一个包含29,266个音频文件的数据集,标注有80个AudioSet Ontology标签。该数据集曾用于DCASE Challenge 2019 Task 2,即Freesound Audio Tagging 2019 Kaggle竞赛。所有音频文件均为未压缩的PCM 16位、44.1 kHz、单声道格式。
数据集配置
- curated: 经过筛选的数据集
- noisy: 包含噪声标签的数据集
特征描述
- file: 文件名,数据类型为字符串
- audio: 音频数据,采样率为44100 Hz
- sound: 声音序列,数据类型为字符串
- label: 标签序列,包含80个类别标签
标签类别
标签类别包括但不限于:
- Accelerating_and_revving_and_vroom
- Accordion
- Acoustic_guitar
- Applause
- Bark
- Bass_drum
- Bass_guitar
- Bathtub_(filling_or_washing)
- Bicycle_bell
- Burping_and_eructation
- Bus
- Buzz
- Car_passing_by
- Cheering
- Chewing_and_mastication
- Child_speech_and_kid_speaking
- Chink_and_clink
- Chirp_and_tweet
- Church_bell
- Clapping
- Computer_keyboard
- Crackle
- Cricket
- Crowd
- Cupboard_open_or_close
- Cutlery_and_silverware
- Dishes_and_pots_and_pans
- Drawer_open_or_close
- Drip
- Electric_guitar
- Fart
- Female_singing
- Female_speech_and_woman_speaking
- Fill_(with_liquid)
- Finger_snapping
- Frying_(food)
- Gasp
- Glockenspiel
- Gong
- Gurgling
- Harmonica
- Hi-hat
- Hiss
- Keys_jangling
- Knock
- Male_singing
- Male_speech_and_man_speaking
- Marimba_and_xylophone
- Mechanical_fan
- Meow
- Microwave_oven
- Motorcycle
- Printer
- Purr
- Race_car_and_auto_racing
- Raindrop
- Run
- Scissors
- Screaming
- Shatter
- Sigh
- Sink_(filling_or_washing)
- Skateboard
- Slam
- Sneeze
- Squeak
- Stream
- Strum
- Tap
- Tick-tock
- Toilet_flush
- Traffic_noise_and_roadway_noise
- Trickle_and_dribble
- Walk_and_footsteps
- Water_tap_and_faucet
- Waves_and_surf
- Whispering
- Writing
- Yell
- Zipper_(clothing)
数据分割
- curated:
- train: 4970个样本,3368589578.44字节
- test: 4481个样本,4182017326.408字节
- noisy:
- train: 19815个样本,25639324897.28字节
- test: 4481个样本,4182017326.408字节
数据集大小
- curated: 下载大小为6845764813字节,数据集大小为7550606904.848字节
- noisy: 下载大小为28944050138字节,数据集大小为29821342223.688字节
数据文件路径
- curated:
- train: curated/train-*
- test: curated/test-*
- noisy:
- train: noisy/train-*
- test: noisy/test-*
任务类别
- audio-classification
标签
- audio
- multilabel
许可证
- cc-by-nc-4.0
- cc-by-sa-4.0
- cc-by-4.0
搜集汇总
数据集介绍

构建方式
在音频分类研究领域,数据集的构建质量直接影响模型性能的评估。FSDKaggle2019数据集通过精心设计的双配置结构构建而成,其中“curated”配置包含4,970条经过人工校验的高质量音频片段,每条音频平均标注1.2个标签,总时长达10.5小时;而“noisy”配置则包含19,815条带有噪声标签的音频,总时长扩展至80小时,模拟了现实场景中标签不完美的数据环境。所有音频均采用PCM 16位、44.1 kHz采样率的单声道格式,确保了信号的原始保真度。数据来源于Freesound数据库(FSD)和YFCC平台,并通过Kaggle竞赛框架进行了系统化整合与划分。
特点
该数据集在音频机器学习领域展现出鲜明的多层次特征。其核心优势在于涵盖80类基于AudioSet本体论的声学事件标签,范围从交通工具噪声到乐器声响,构建了丰富的声学场景谱系。数据集通过“curated”与“noisy”双轨配置,提供了标签质量对比研究的天然实验场——前者标注准确但可能不完整,后者则包含真实世界中的噪声标签,这种结构为鲁棒性学习算法开发提供了关键数据基础。所有音频文件均保持44.1 kHz高采样率的统一格式,且测试集包含4,481条具有完整准确标注的独立样本,为模型性能验证提供了可靠基准。
使用方法
在音频模式识别实践中,该数据集支持多维度研究应用。研究者可通过HuggingFace平台直接加载“curated”或“noisy”配置,利用其预划分的训练集与测试集进行监督学习实验。由于采用多标签分类框架,每条音频可能对应多个声学事件标签,适合开发注意力机制或多标签分类模型。数据集最初为DCASE 2019挑战赛设计,特别适用于研究噪声标签下的模型鲁棒性、半监督学习策略以及音频事件检测的跨领域迁移。使用时应遵循CC系列许可协议,并可通过Zenodo平台获取原始音频文件以进行更底层的信号处理分析。
背景与挑战
背景概述
在音频信息检索领域,大规模标注音频数据集的构建对于推动环境声音识别与分类研究至关重要。FSDKaggle2019数据集由Eduardo Fonseca等研究人员于2019年创建,作为DCASE 2019挑战赛任务2的核心数据资源,该数据集依托Freesound平台,旨在解决多标签音频分类问题。其核心研究问题聚焦于在噪声标签及有限监督条件下实现精准音频标注,通过整合精心标注的“curated”与含噪声标签的“noisy”两部分数据,为弱监督学习与噪声鲁棒性研究提供了重要基准,显著促进了音频机器学习模型在真实复杂场景下的泛化能力探索。
当前挑战
该数据集致力于应对多标签音频分类的挑战,其核心在于识别并区分80类涵盖乐器、人声、环境声响等的复杂声音事件,这些事件在现实场景中常伴随背景噪声与类间混淆,对模型的判别能力提出较高要求。在构建过程中,数据采集面临标注质量不均的难题:“curated”部分虽标注准确但可能不完整,而“noisy”部分则直接引入标签噪声,这要求数据集设计需平衡标注可靠性与其实际应用价值。此外,音频样本在时长、信噪比及声学特性上的高度异质性,进一步增加了特征提取与模型训练的复杂度。
常用场景
经典使用场景
在音频信息检索领域,FSDKaggle2019数据集作为一项经典资源,常被用于多标签音频分类任务的研究与评估。该数据集涵盖了80种日常声音类别,从乐器演奏到环境噪声,为模型训练提供了丰富的声学场景。研究者利用其精心标注的“curated”子集和带有噪声标签的“noisy”子集,探索在纯净与嘈杂数据并存条件下的分类性能,尤其适用于评估模型在真实世界复杂音频环境中的泛化能力。
实际应用
在实际应用中,FSDKaggle2019数据集支撑了智能音频监控、内容检索与多媒体分析系统的开发。例如,在智能家居环境中,基于该数据集训练的模型可识别特定声音事件如婴儿啼哭或玻璃破碎,从而触发安防警报。在多媒体平台中,它助力自动生成音频标签,增强内容分类与推荐系统的准确性,提升用户体验与平台运营效率。
衍生相关工作
围绕FSDKaggle2019数据集,衍生出一系列经典研究工作,特别是在DCASE 2019挑战赛的框架下。许多团队利用该数据集探索了卷积神经网络与时频变换的结合,以及注意力机制在音频标签中的应用。后续研究进一步扩展至自监督学习与跨模态学习,例如将音频特征与文本描述对齐,推动了音频理解领域向更高效、更通用的表征学习方向发展。
以上内容由遇见数据集搜集并总结生成



