five

ESC: Dataset for Environmental Sound Classification|环境声音分类数据集|声音识别数据集

收藏
github2019-07-15 更新2024-05-31 收录
环境声音分类
声音识别
下载链接:
https://github.com/afcarl/paper-2015-esc-dataset
下载链接
链接失效反馈
资源简介:
该数据集包含2000个短片段,涵盖50种常见声音事件类别,以及从Freesound项目中提取的250,000个未标记的听觉摘录。数据集旨在解决环境声音分类研究中数据集稀缺的问题,并提供了人类分类准确性与基于梅尔频率倒谱系数和零交叉率的基线分类器性能的比较。

This dataset comprises 2000 short audio clips, encompassing 50 common sound event categories, along with 250,000 unlabeled auditory excerpts extracted from the Freesound project. The dataset is designed to address the scarcity of datasets in environmental sound classification research and provides a comparison between human classification accuracy and the performance of baseline classifiers based on Mel-frequency cepstral coefficients (MFCC) and zero-crossing rates.
创建时间:
2018-06-09
原始信息汇总

数据集概述

数据集名称

ESC: Dataset for Environmental Sound Classification

数据集描述

该数据集包含2000个短音频片段,涵盖50种常见环境声音类别。此外,还包括250,000个未标记的音频片段,这些片段来自Freesound项目。

数据集内容

  • ESC-50: 50类环境声音,共2000个短片段。
  • ESC-10: 10类环境声音,具体内容未详述。

数据集下载

相关文献

补充材料

相关工作

AI搜集汇总
数据集介绍
main_image_url
构建方式
在环境声音分类研究领域,数据集的稀缺性一直是研究活动的主要障碍之一。为此,ESC数据集通过精心构建,提供了一个包含2000个短音频片段的标注集合,涵盖50个常见声音事件类别。此外,数据集还整合了从Freesound项目中提取的250,000个未标注音频片段,形成了一个丰富且统一的资源库。这些音频片段通过提取梅尔频率倒谱系数和零交叉率等特征,为环境声音分类提供了坚实的基础。
特点
ESC数据集的显著特点在于其广泛的声音事件类别和丰富的音频资源。数据集不仅包含2000个标注的短音频片段,还提供了250,000个未标注的音频片段,极大地扩展了研究的可能性。此外,数据集的音频片段来源于Freesound项目,确保了数据的多样性和真实性。通过使用梅尔频率倒谱系数和零交叉率等特征,数据集为环境声音分类提供了高效的特征提取方法。
使用方法
ESC数据集的使用方法灵活多样,适用于多种环境声音分类任务。研究者可以直接下载整个数据集或其子集,如ESC-50和ESC-10,进行实验和模型训练。数据集提供了详细的特征提取方法,如梅尔频率倒谱系数和零交叉率,便于研究者快速上手。此外,数据集还附带了Jupyter/IPython笔记本的源代码,支持探索性数据分析,进一步简化了数据集的使用流程。
背景与挑战
背景概述
在环境声音分类研究领域,一个显著的障碍是缺乏合适且公开可用的数据集。为应对这一挑战,Karol J. Piczak于2015年提出了ESC数据集,该数据集包含2000个短音频片段,涵盖50种常见声音事件类别,以及从Freesound项目中提取的250,000个未标记音频片段。这一数据集的创建不仅填补了环境声音分类研究中的数据空白,还通过提供详细的标注和分析工具,促进了该领域的进一步发展。ESC数据集的发布在ACM国际多媒体会议(ACMMM)上得到了广泛关注,并成为环境声音分类研究的重要资源。
当前挑战
ESC数据集的构建面临多重挑战。首先,环境声音的多样性和复杂性使得数据标注和分类变得尤为困难。其次,从Freesound项目中提取的未标记音频片段数量庞大,如何高效地处理和利用这些数据是一个技术难题。此外,环境声音的背景噪声和多重声音事件的混合也对分类算法的准确性提出了高要求。最后,如何设计有效的特征提取方法,如使用梅尔频率倒谱系数和零交叉率,以提高分类性能,是该数据集应用中的关键挑战。
常用场景
经典使用场景
ESC数据集在环境声音分类领域中具有经典应用,主要用于训练和评估环境声音分类模型。该数据集包含了2000个短音频片段,涵盖50种常见声音事件,为研究人员提供了一个标准化的基准,用于测试和比较不同分类算法的性能。通过使用梅尔频率倒谱系数(MFCC)和过零率等特征,研究者可以构建和优化环境声音分类器,从而在各种实际场景中实现高效的声音识别。
实际应用
ESC数据集在实际应用中展现了广泛的应用潜力,特别是在智能家居、城市监控和工业安全等领域。例如,通过训练基于ESC数据集的分类模型,智能家居系统可以自动识别和响应环境中的声音事件,如火灾警报或玻璃破碎声。在城市监控中,该数据集支持的声音分类技术可用于检测异常声音,提升公共安全。此外,工业环境中,该技术有助于实时监测设备运行状态,预防潜在故障。
衍生相关工作
基于ESC数据集,研究者们开展了多项相关工作,其中最为著名的是使用卷积神经网络(CNN)进行环境声音分类的研究。这些工作不仅验证了深度学习在声音分类任务中的强大能力,还推动了相关算法和模型的优化与创新。此外,ESC数据集还激发了其他领域的研究,如声音事件检测、多模态数据融合等,进一步拓展了其在学术和应用领域的影响力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录