confit/esc50-demo
收藏Hugging Face2024-03-26 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/confit/esc50-demo
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: fold1
features:
- name: audio
dtype:
audio:
sampling_rate: 44100
- name: sound
dtype: string
- name: label
dtype:
class_label:
names:
'0': airplane
'1': breathing
'2': brushing_teeth
'3': can_opening
'4': car_horn
'5': cat
'6': chainsaw
'7': chirping_birds
'8': church_bells
'9': clapping
'10': clock_alarm
'11': clock_tick
'12': coughing
'13': cow
'14': crackling_fire
'15': crickets
'16': crow
'17': crying_baby
'18': dog
'19': door_wood_creaks
'20': door_wood_knock
'21': drinking_sipping
'22': engine
'23': fireworks
'24': footsteps
'25': frog
'26': glass_breaking
'27': hand_saw
'28': helicopter
'29': hen
'30': insects
'31': keyboard_typing
'32': laughing
'33': mouse_click
'34': pig
'35': pouring_water
'36': rain
'37': rooster
'38': sea_waves
'39': sheep
'40': siren
'41': sneezing
'42': snoring
'43': thunderstorm
'44': toilet_flush
'45': train
'46': vacuum_cleaner
'47': washing_machine
'48': water_drops
'49': wind
splits:
- name: train
num_bytes: 705710450.2
num_examples: 1600
- name: test
num_bytes: 176427616
num_examples: 400
download_size: 773383933
dataset_size: 882138066.2
- config_name: fold2
features:
- name: audio
dtype:
audio:
sampling_rate: 44100
- name: sound
dtype: string
- name: label
dtype:
class_label:
names:
'0': airplane
'1': breathing
'2': brushing_teeth
'3': can_opening
'4': car_horn
'5': cat
'6': chainsaw
'7': chirping_birds
'8': church_bells
'9': clapping
'10': clock_alarm
'11': clock_tick
'12': coughing
'13': cow
'14': crackling_fire
'15': crickets
'16': crow
'17': crying_baby
'18': dog
'19': door_wood_creaks
'20': door_wood_knock
'21': drinking_sipping
'22': engine
'23': fireworks
'24': footsteps
'25': frog
'26': glass_breaking
'27': hand_saw
'28': helicopter
'29': hen
'30': insects
'31': keyboard_typing
'32': laughing
'33': mouse_click
'34': pig
'35': pouring_water
'36': rain
'37': rooster
'38': sea_waves
'39': sheep
'40': siren
'41': sneezing
'42': snoring
'43': thunderstorm
'44': toilet_flush
'45': train
'46': vacuum_cleaner
'47': washing_machine
'48': water_drops
'49': wind
splits:
- name: train
num_bytes: 705710467.8
num_examples: 1600
- name: test
num_bytes: 176427616
num_examples: 400
download_size: 773374873
dataset_size: 882138083.8
- config_name: fold3
features:
- name: audio
dtype:
audio:
sampling_rate: 44100
- name: sound
dtype: string
- name: label
dtype:
class_label:
names:
'0': airplane
'1': breathing
'2': brushing_teeth
'3': can_opening
'4': car_horn
'5': cat
'6': chainsaw
'7': chirping_birds
'8': church_bells
'9': clapping
'10': clock_alarm
'11': clock_tick
'12': coughing
'13': cow
'14': crackling_fire
'15': crickets
'16': crow
'17': crying_baby
'18': dog
'19': door_wood_creaks
'20': door_wood_knock
'21': drinking_sipping
'22': engine
'23': fireworks
'24': footsteps
'25': frog
'26': glass_breaking
'27': hand_saw
'28': helicopter
'29': hen
'30': insects
'31': keyboard_typing
'32': laughing
'33': mouse_click
'34': pig
'35': pouring_water
'36': rain
'37': rooster
'38': sea_waves
'39': sheep
'40': siren
'41': sneezing
'42': snoring
'43': thunderstorm
'44': toilet_flush
'45': train
'46': vacuum_cleaner
'47': washing_machine
'48': water_drops
'49': wind
splits:
- name: train
num_bytes: 705710462
num_examples: 1600
- name: test
num_bytes: 176427616
num_examples: 400
download_size: 773552360
dataset_size: 882138078
- config_name: fold4
features:
- name: audio
dtype:
audio:
sampling_rate: 44100
- name: sound
dtype: string
- name: label
dtype:
class_label:
names:
'0': airplane
'1': breathing
'2': brushing_teeth
'3': can_opening
'4': car_horn
'5': cat
'6': chainsaw
'7': chirping_birds
'8': church_bells
'9': clapping
'10': clock_alarm
'11': clock_tick
'12': coughing
'13': cow
'14': crackling_fire
'15': crickets
'16': crow
'17': crying_baby
'18': dog
'19': door_wood_creaks
'20': door_wood_knock
'21': drinking_sipping
'22': engine
'23': fireworks
'24': footsteps
'25': frog
'26': glass_breaking
'27': hand_saw
'28': helicopter
'29': hen
'30': insects
'31': keyboard_typing
'32': laughing
'33': mouse_click
'34': pig
'35': pouring_water
'36': rain
'37': rooster
'38': sea_waves
'39': sheep
'40': siren
'41': sneezing
'42': snoring
'43': thunderstorm
'44': toilet_flush
'45': train
'46': vacuum_cleaner
'47': washing_machine
'48': water_drops
'49': wind
splits:
- name: train
num_bytes: 705710450
num_examples: 1600
- name: test
num_bytes: 176427616
num_examples: 400
download_size: 773258954
dataset_size: 882138066
- config_name: fold5
features:
- name: audio
dtype:
audio:
sampling_rate: 44100
- name: sound
dtype: string
- name: label
dtype:
class_label:
names:
'0': airplane
'1': breathing
'2': brushing_teeth
'3': can_opening
'4': car_horn
'5': cat
'6': chainsaw
'7': chirping_birds
'8': church_bells
'9': clapping
'10': clock_alarm
'11': clock_tick
'12': coughing
'13': cow
'14': crackling_fire
'15': crickets
'16': crow
'17': crying_baby
'18': dog
'19': door_wood_creaks
'20': door_wood_knock
'21': drinking_sipping
'22': engine
'23': fireworks
'24': footsteps
'25': frog
'26': glass_breaking
'27': hand_saw
'28': helicopter
'29': hen
'30': insects
'31': keyboard_typing
'32': laughing
'33': mouse_click
'34': pig
'35': pouring_water
'36': rain
'37': rooster
'38': sea_waves
'39': sheep
'40': siren
'41': sneezing
'42': snoring
'43': thunderstorm
'44': toilet_flush
'45': train
'46': vacuum_cleaner
'47': washing_machine
'48': water_drops
'49': wind
splits:
- name: train
num_bytes: 705710464.4
num_examples: 1600
- name: test
num_bytes: 176427616
num_examples: 400
download_size: 773395386
dataset_size: 882138080.4
configs:
- config_name: fold1
data_files:
- split: train
path: fold1/train-*
- split: test
path: fold1/test-*
- config_name: fold2
data_files:
- split: train
path: fold2/train-*
- split: test
path: fold2/test-*
- config_name: fold3
data_files:
- split: train
path: fold3/train-*
- split: test
path: fold3/test-*
- config_name: fold4
data_files:
- split: train
path: fold4/train-*
- split: test
path: fold4/test-*
- config_name: fold5
data_files:
- split: train
path: fold5/train-*
- split: test
path: fold5/test-*
task_categories:
- audio-classification
tags:
- audio
- multiclass
---
提供机构:
confit
原始信息汇总
数据集概述
数据集配置
配置名称:fold1
- 特征:
audio: 采样率 44100 Hzsound: 字符串类型label: 类别标签,包含 50 个类别
- 分割:
train: 1600 个样本,705710450.2 字节test: 400 个样本,176427616 字节
- 下载大小: 773383933 字节
- 数据集大小: 882138066.2 字节
配置名称:fold2
- 特征:
audio: 采样率 44100 Hzsound: 字符串类型label: 类别标签,包含 50 个类别
- 分割:
train: 1600 个样本,705710467.8 字节test: 400 个样本,176427616 字节
- 下载大小: 773374873 字节
- 数据集大小: 882138083.8 字节
配置名称:fold3
- 特征:
audio: 采样率 44100 Hzsound: 字符串类型label: 类别标签,包含 50 个类别
- 分割:
train: 1600 个样本,705710462 字节test: 400 个样本,176427616 字节
- 下载大小: 773552360 字节
- 数据集大小: 882138078 字节
配置名称:fold4
- 特征:
audio: 采样率 44100 Hzsound: 字符串类型label: 类别标签,包含 50 个类别
- 分割:
train: 1600 个样本,705710450 字节test: 400 个样本,176427616 字节
- 下载大小: 773258954 字节
- 数据集大小: 882138066 字节
配置名称:fold5
- 特征:
audio: 采样率 44100 Hzsound: 字符串类型label: 类别标签,包含 50 个类别
- 分割:
train: 1600 个样本,705710464.4 字节test: 400 个样本,176427616 字节
- 下载大小: 773395386 字节
- 数据集大小: 882138080.4 字节
数据文件路径
- fold1:
train: fold1/train-*test: fold1/test-*
- fold2:
train: fold2/train-*test: fold2/test-*
- fold3:
train: fold3/train-*test: fold3/test-*
- fold4:
train: fold4/train-*test: fold4/test-*
- fold5:
train: fold5/train-*test: fold5/test-*
任务类别
- 音频分类
标签类别
- 0: airplane
- 1: breathing
- 2: brushing_teeth
- 3: can_opening
- 4: car_horn
- 5: cat
- 6: chainsaw
- 7: chirping_birds
- 8: church_bells
- 9: clapping
- 10: clock_alarm
- 11: clock_tick
- 12: coughing
- 13: cow
- 14: crackling_fire
- 15: crickets
- 16: crow
- 17: crying_baby
- 18: dog
- 19: door_wood_creaks
- 20: door_wood_knock
- 21: drinking_sipping
- 22: engine
- 23: fireworks
- 24: footsteps
- 25: frog
- 26: glass_breaking
- 27: hand_saw
- 28: helicopter
- 29: hen
- 30: insects
- 31: keyboard_typing
- 32: laughing
- 33: mouse_click
- 34: pig
- 35: pouring_water
- 36: rain
- 37: rooster
- 38: sea_waves
- 39: sheep
- 40: siren
- 41: sneezing
- 42: snoring
- 43: thunderstorm
- 44: toilet_flush
- 45: train
- 46: vacuum_cleaner
- 47: washing_machine
- 48: water_drops
- 49: wind
标签
- 音频
- 多类别
搜集汇总
数据集介绍

构建方式
在环境声音分类研究领域,数据集的构建需兼顾多样性与平衡性。该数据集采用五折交叉验证的划分策略,每个折叠均包含1600个训练样本与400个测试样本,总计2000个音频片段。音频数据以44.1kHz的采样率采集,确保了声音信号的保真度。每个样本均标注为50个预定义类别之一,涵盖了从自然声源到人工声源的广泛范围,构建过程注重类别分布的均衡,为模型评估提供了稳健的基础。
特点
该数据集在环境声音识别任务中展现出鲜明的特征。其核心在于覆盖了50种不同的声音类别,包括动物鸣叫、日常活动声响、机械噪音及自然现象等多元声学场景。所有音频均以统一的44.1kHz高采样率保存,保证了声音特征的完整性。数据集通过五个独立配置(fold1至fold5)组织,每个配置均严格划分训练集与测试集,这种结构便于进行交叉验证,有效评估模型在不同数据子集上的泛化能力与稳定性。
使用方法
在音频分类模型的开发与评估中,该数据集提供了标准化的应用路径。研究者可通过加载特定配置(如fold1)直接获取对应的训练与测试分割。每个样本包含音频数据、声音描述文本及数字标签,支持端到端的分类任务。典型工作流程涉及利用训练集训练深度学习模型,随后在测试集上验证性能。五折配置允许进行交叉验证,通过轮换训练与测试集,全面衡量模型在不同数据分布下的表现,从而得出更可靠的性能结论。
背景与挑战
背景概述
在环境声音分类领域,ESC-50数据集由K. J. Piczak于2015年创建,旨在为音频事件识别研究提供标准化的基准。该数据集涵盖了50个类别的环境声音,从自然现象到人类活动,其精心设计的五折交叉验证结构促进了模型泛化能力的评估。ESC-50的出现推动了计算听觉场景分析的发展,为声音识别算法提供了丰富的实验平台,并在智能监控、助听设备等领域产生了深远影响。
当前挑战
环境声音分类面临声学特征的复杂性和类间相似性等挑战,例如区分钟表滴答与键盘敲击等细微差异。数据集构建过程中,需确保音频样本在多样声学环境下的高质量采集与标注一致性,同时平衡类别分布以避免模型偏差。此外,ESC-50的有限规模可能限制深度学习模型的性能上限,需通过数据增强或迁移学习弥补样本不足。
常用场景
经典使用场景
在环境声音分类领域,confit/esc50-demo数据集作为ESC-50的衍生版本,其经典使用场景在于为机器学习模型提供标准化的音频分类基准测试。该数据集囊括了50类涵盖自然环境、人类活动与机械声响的音频样本,每段音频均以44.1kHz采样率录制并统一为5秒时长。研究者常利用其五折交叉验证结构,系统评估卷积神经网络、循环神经网络等模型在声学特征提取与模式识别上的性能,为环境声音理解奠定了可复现的实验基础。
衍生相关工作
围绕该数据集衍生的经典工作显著丰富了音频机器学习的研究图景。诸多研究基于其五折验证框架,提出了融合梅尔频谱与波形卷积的混合架构,如EnvNet系列模型。同时,它催生了针对环境声音的注意力机制优化研究,例如基于时频掩码的声学场景增强方法。在跨数据集泛化探索中,该数据集常与UrbanSound8K等资源联合使用,推动了领域自适应算法在声学分类中的演进与标准化评估体系的形成。
数据集最近研究
最新研究方向
在环境声音分类领域,ESC-50数据集作为经典基准,持续推动音频信号处理的前沿探索。当前研究聚焦于结合自监督学习与迁移学习策略,利用大规模预训练模型如Wav2Vec2和BEATs,提升模型在有限标注数据下的泛化能力。同时,多模态融合技术成为热点,通过整合视觉或文本信息增强声音事件的语义理解,尤其在智能监控与健康感知应用中备受关注。这些进展不仅优化了分类精度,也为边缘计算设备上的实时环境感知提供了新范式,深刻影响着智慧城市与物联网的声学分析体系。
以上内容由遇见数据集搜集并总结生成



