five

renumics/esc50|音频分类数据集

收藏
hugging_face2023-11-09 更新2024-03-04 收录
音频分类
下载链接:
https://hf-mirror.com/datasets/renumics/esc50
下载链接
链接失效反馈
资源简介:
ESC-50数据集是一个环境声音分类数据集,包含50种不同的声音类别,如动物声音(狗、猫、鸡等)、自然声音(雨、海浪、风等)、人类声音(笑声、咳嗽、脚步声等)和机械声音(直升机、链锯、警笛等)。数据集的特征包括音频文件、标签、折叠信息等。数据集分为训练集,包含2000个样本,总大小为882179256字节。数据集的使用受Creative Commons Attribution Non-Commercial license许可。
提供机构:
renumics
原始信息汇总

数据集概述

数据集信息

特征

  • src_file: 数据类型为字符串。
  • fold: 数据类型为整数(int64)。
  • label: 数据类型为分类标签,包含以下类别:
    • 0: dog
    • 1: rooster
    • 2: pig
    • 3: cow
    • 4: frog
    • 5: cat
    • 6: hen
    • 7: insects
    • 8: sheep
    • 9: crow
    • 10: rain
    • 11: sea_waves
    • 12: crackling_fire
    • 13: crickets
    • 14: chirping_birds
    • 15: water_drops
    • 16: wind
    • 17: pouring_water
    • 18: toilet_flush
    • 19: thunderstorm
    • 20: crying_baby
    • 21: sneezing
    • 22: clapping
    • 23: breathing
    • 24: coughing
    • 25: footsteps
    • 26: laughing
    • 27: brushing_teeth
    • 28: snoring
    • 29: drinking_sipping
    • 30: door_wood_knock
    • 31: mouse_click
    • 32: keyboard_typing
    • 33: door_wood_creaks
    • 34: can_opening
    • 35: washing_machine
    • 36: vacuum_cleaner
    • 37: clock_alarm
    • 38: clock_tick
    • 39: glass_breaking
    • 40: helicopter
    • 41: chainsaw
    • 42: siren
    • 43: car_horn
    • 44: engine
    • 45: train
    • 46: church_bells
    • 47: airplane
    • 48: fireworks
    • 49: hand_saw
  • esc10: 数据类型为布尔值。
  • take: 数据类型为字符串。
  • audio: 数据类型为音频。

数据分割

  • train: 包含2000个样本,总字节数为882179256。

数据集大小

  • 下载大小: 773038488字节
  • 数据集大小: 882179256字节

配置

  • default: 数据文件路径为data/train-*

许可证

  • 数据集使用Creative Commons Attribution Non-Commercial许可证(cc-by-nc-2.0)。

任务类别

  • 音频分类

数据集规模

  • 1K<n<10K
AI搜集汇总
数据集介绍
main_image_url
构建方式
ESC-50数据集的构建基于环境声音分类的需求,精心收集了来自不同自然和人工环境的50种声音类别。每种声音类别包含40个音频样本,每个样本时长为5秒,采样率为44.1 kHz。数据集通过交叉验证的方式划分为5个fold,确保了训练和测试的独立性。此外,数据集还标记了是否属于ESC-10子集,便于研究者进行更细粒度的实验。
使用方法
使用ESC-50数据集时,研究者可以通过HuggingFace的datasets库加载数据,并利用Renumics Spotlight进行可视化分析。数据集支持多种任务,如音频分类和特征提取。研究者还可以结合其他模型结果,如MS CLAP的零样本分类,进一步丰富数据集的应用场景。
背景与挑战
背景概述
ESC-50数据集是由K. J. Piczak在2015年创建的,旨在推动环境声音分类领域的研究。该数据集包含了2000个音频样本,涵盖了50种不同的环境声音类别,如动物叫声、自然声音和日常生活中的声音。ESC-50的发布为环境声音分类研究提供了标准化的数据集,极大地促进了该领域的发展。其主要研究人员K. J. Piczak通过在ACM多媒体会议上发表的论文详细介绍了数据集的构建方法和应用场景,进一步提升了其在学术界的影响力。
当前挑战
ESC-50数据集在环境声音分类领域面临的主要挑战包括:首先,环境声音的多样性和复杂性使得分类任务变得困难,尤其是当声音特征相似时,区分不同类别变得更具挑战性。其次,数据集的构建过程中,音频样本的采集和标注需要耗费大量时间和资源,确保标注的准确性和一致性是一个重要难题。此外,如何有效地利用该数据集进行模型训练,以提高分类精度和泛化能力,也是当前研究中的一个关键挑战。
常用场景
经典使用场景
ESC-50数据集在环境声音分类领域中被广泛应用,其经典使用场景包括声音事件的自动识别与分类。通过该数据集,研究者可以训练和评估模型在多种环境声音上的分类性能,如动物叫声、自然声音、人类活动声音等。其多样化的声音类别和高质量的音频数据为模型提供了丰富的训练素材,使得模型能够在复杂的环境中准确识别和分类声音事件。
解决学术问题
ESC-50数据集解决了环境声音分类中的关键学术问题,如声音事件的多样性和复杂性导致的分类困难。通过提供一个包含50个类别、每个类别40个样本的标准化数据集,ESC-50为研究者提供了一个统一的基准,用于评估和比较不同算法的性能。这不仅推动了环境声音分类技术的发展,还为相关领域的研究提供了重要的数据支持。
实际应用
在实际应用中,ESC-50数据集被广泛用于智能家居、安防监控、环境监测等领域。例如,在智能家居系统中,通过识别和分类环境声音,系统可以自动调整设备设置以适应不同的环境条件;在安防监控中,声音事件的识别可以帮助及时发现异常情况并采取相应措施。这些应用场景展示了ESC-50数据集在提升生活质量和保障安全方面的巨大潜力。
数据集最近研究
最新研究方向
在环境声音分类领域,ESC-50数据集因其丰富的声音类别和高质量的音频数据而备受关注。最新的研究方向主要集中在利用深度学习技术提升声音分类的准确性和鲁棒性。通过引入如MS CLAP等先进的零样本分类模型,研究者们探索了如何在无需大量标注数据的情况下实现高效的声音识别。此外,结合嵌入技术,如文本和音频嵌入,进一步增强了模型的泛化能力和应用场景的多样性。这些研究不仅推动了环境声音分类技术的发展,也为智能音频处理和环境监测等领域提供了新的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的,包含超过5000条中文语句,每条语句都配有详细的个人资料信息,如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量,旨在解决在语义模糊的实际场景中,传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力,特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国车牌识别数据集(7类,33万张)

这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区 收录