urbansound8k

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/voxaiorg/urbansound8k

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含音频文件和相关特征的数据集，特征包括文件的ID、时间戳、显著性分数、类别信息等。数据集被划分为训练集，提供了详细的大小和示例数量信息。

This is a dataset containing audio files and their associated features, including file ID, timestamp, saliency score, category information, and more. The dataset is split into training sets, with detailed information regarding its scale and the number of samples provided.

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

UrbanSound8K数据集的构建基于环境声音分类研究需求，采用分层抽样方法从原始UrbanSound数据中选取8732条标注音频片段。所有样本均来源于Field Recording网站的真实城市环境录音，通过人工聆听和专家验证确保标签准确性，并统一处理为4秒长度、44.1kHz采样率的WAV格式。数据集按10折交叉验证需求划分为10个子集，每个子集保持声学事件类别的比例平衡。

特点

该数据集涵盖10类城市环境声学事件（如空调声、汽车鸣笛、儿童游戏等），具有较高的生态效度。所有音频均包含噪声背景和时空重叠特性，真实反映城市声景的复杂性。数据集提供精确到毫秒的事件发生时间戳和分层交叉验证索引，支持细粒度的音频事件检测与分类研究。其小样本规模（8K片段）与高质量标注的平衡，使其成为声学机器学习模型的理想基准测试集。

使用方法

研究者可通过加载标准化的元数据CSV文件获取文件名、类别标签及折叠分区信息。建议使用LibROSA或TorchAudio库进行梅尔频谱图转换和数据增强处理。训练时应遵循官方10折交叉验证方案以避免数据泄露，每个折叠作为独立测试集轮换使用。评估指标推荐采用加权F1分数以应对类别不平衡问题，并可结合声学特征提取技术优化模型对时空噪声的鲁棒性。

背景与挑战

背景概述

UrbanSound8K数据集由纽约大学与卡内基梅隆大学的研究团队于2014年联合发布，聚焦城市环境声音分类这一音频计算领域的核心问题。该数据集涵盖10类城市常见声学事件，如警笛声、施工噪声等，旨在推动环境声音识别技术在智慧城市与噪声监测中的应用。其高质量标注与真实场景采集特性，显著促进了声学事件检测模型的标准化评估与跨领域迁移研究。

当前挑战

该数据集需解决城市声景中多源声音混杂、背景噪声干扰及声学事件时空重叠等分类难题。构建过程中面临真实环境音频采集的伦理与隐私约束，声事件片段的手动分割与标注需依赖专家听辨，且类间样本数量不均衡可能引入模型偏差。此外，跨设备录制导致的声学特征差异进一步增加了数据一致性的维护难度。

常用场景

经典使用场景

UrbanSound8K数据集在环境声学分类研究中占据重要地位，其经典使用场景涵盖城市声音事件的自动识别与分类。研究者通常利用该数据集训练卷积神经网络或循环神经网络模型，对音频片段中的声音类别进行精确划分，如犬吠、枪声、钻孔声等。这一过程不仅验证了模型在复杂声学环境中的泛化能力，还为城市噪声监测提供了关键数据支持。

衍生相关工作

该数据集催生了多项声学分析领域的突破性研究，如DCASE挑战赛中基于深度学习的声学事件检测框架。衍生工作包括结合频谱图与注意力机制的CRNN模型，以及针对城市声音的跨域迁移学习方案。这些成果进一步推动了ESC-50、AudioSet等数据集的构建，形成声学分类研究的良性发展生态。

数据集最近研究