five

ESC: Dataset for Environmental Sound Classification|环境声音分类数据集|声音识别数据集

收藏
github2024-05-04 更新2024-05-31 收录
环境声音分类
声音识别
下载链接:
https://github.com/karoldvl/paper-2015-esc-dataset
下载链接
链接失效反馈
资源简介:
该数据集包含2000个短片段,涵盖50种常见声音事件类别,以及从Freesound项目中提取的250,000个未标记的听觉摘录。数据集用于评估人类在环境声音分类中的准确性,并与基于梅尔频率倒谱系数和零交叉率的基线分类器性能进行比较。

This dataset comprises 2000 short audio clips, encompassing 50 common sound event categories, along with 250,000 unlabeled auditory excerpts extracted from the Freesound project. It is utilized to assess human accuracy in environmental sound classification and to compare it with the performance of baseline classifiers based on Mel-frequency cepstral coefficients (MFCC) and zero-crossing rate.
创建时间:
2015-05-01
原始信息汇总

数据集概述

数据集名称

  • ESC: Dataset for Environmental Sound Classification

数据集描述

  • 包含2000个短音频片段,分为50个不同的环境声音类别。
  • 提供250,000个未标记的音频摘录,来源于Freesound项目。

数据集下载

相关文献

  • 论文链接:ESC: Dataset for Environmental Sound Classification
  • 引用格式:K. J. Piczak. ESC: Dataset for Environmental Sound Classification. In Proceedings of the 23rd ACM international conference on Multimedia, pp. 1015-1018, ACM, 2015. [DOI: http://dx.doi.org/10.1145/2733373.2806390]

补充材料

相关工作

AI搜集汇总
数据集介绍
main_image_url
构建方式
在环境声音分类研究领域,数据集的稀缺性一直是研究者面临的主要挑战。为此,ESC数据集通过精心构建,旨在填补这一空白。该数据集包含2000个短音频片段,涵盖50种常见声音事件,并进一步扩展至250,000个未标注的音频片段,这些片段从Freesound项目中提取。通过统一的编排和标注,ESC数据集为环境声音分类提供了丰富的资源,确保了数据的多维性和广泛性。
特点
ESC数据集的显著特点在于其多样性和规模。该数据集不仅包含2000个标注的音频片段,还扩展至250,000个未标注的音频片段,极大地丰富了研究素材。此外,数据集的50个类别涵盖了日常生活中常见的声音事件,确保了数据的实用性和代表性。通过使用梅尔频率倒谱系数和零交叉率等特征,ESC数据集为环境声音分类提供了强有力的支持。
使用方法
ESC数据集的使用方法灵活多样,适用于多种环境声音分类任务。研究者可以通过访问GitHub页面下载ESC-50和ESC-10子集,进行基础的分类实验。此外,数据集还提供了详细的探索性分析代码,以Jupyter/IPython笔记本的形式呈现,便于研究者深入理解和利用数据。通过结合梅尔频率倒谱系数和零交叉率等特征,研究者可以构建和评估不同的分类模型,从而推动环境声音分类技术的发展。
背景与挑战
背景概述
在环境声音分类研究领域,数据集的稀缺性一直是制约研究进展的关键因素。为应对这一挑战,Karol J. Piczak于2015年提出了ESC数据集,该数据集包含2000个短音频片段,涵盖50种常见环境声音事件,并进一步提供了从Freesound项目中提取的250,000个未标注音频片段。这一数据集的发布不仅填补了环境声音分类领域的数据空白,还通过对比人类与基线分类器的性能,为该领域的研究提供了重要的参考依据。ESC数据集的推出,极大地推动了环境声音分类技术的发展,并为相关研究提供了丰富的实验资源。
当前挑战
ESC数据集在构建过程中面临诸多挑战。首先,环境声音的多样性和复杂性使得数据标注工作异常困难,如何确保标注的准确性和一致性成为一大难题。其次,未标注数据的规模庞大,如何有效利用这些数据进行无监督学习或半监督学习,是当前研究的重点。此外,环境声音分类任务本身具有较高的难度,尤其是在噪声干扰和声音相似性方面,如何提升分类器的鲁棒性和泛化能力,仍是该领域亟待解决的问题。
常用场景
经典使用场景
ESC数据集在环境声音分类领域中扮演着至关重要的角色,其经典使用场景主要集中在环境声音的自动分类与识别。通过提供2000个短音频片段,涵盖50种常见声音事件,该数据集为研究人员提供了一个标准化的基准,用于训练和评估环境声音分类算法。特别是在机器学习和深度学习领域,ESC数据集常被用于开发和测试基于梅尔频率倒谱系数(MFCC)和零交叉率等特征的分类模型,从而推动环境声音识别技术的进步。
解决学术问题
ESC数据集有效解决了环境声音分类研究中数据稀缺的关键问题。通过提供丰富的标注和未标注音频数据,该数据集为学术界提供了一个统一的基准,使得研究人员能够在一个标准化的环境中比较和评估不同的分类算法。此外,ESC数据集还通过对比人类和机器的分类准确率,揭示了当前技术与人类感知之间的差距,为未来的研究指明了方向,具有重要的学术意义和影响。
衍生相关工作
ESC数据集的发布催生了一系列相关研究工作,特别是在环境声音分类和深度学习领域。例如,基于该数据集的研究工作包括使用卷积神经网络(CNN)进行环境声音分类,这一方法显著提升了分类的准确性和鲁棒性。此外,ESC数据集还激发了其他研究者开发新的特征提取方法和分类算法,推动了环境声音识别技术的整体进步。这些衍生工作不仅丰富了环境声音分类的理论基础,也为实际应用提供了更多可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录