flwrlabs/fed-urbansound8k
收藏Hugging Face2026-05-05 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/flwrlabs/fed-urbansound8k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是UrbanSound8K的一个联邦化、非独立同分布(non-IID)的重新分区版本,用于客户端分区的音频分类实验。源数据集包含来自10个城市声音类别的标记音频片段,每个片段最长4秒。派生数据集保留了原始音频示例和元数据,但将其重新组织为50个模拟联邦客户端。每个示例包含一个`clientID`列,标识其所属的模拟客户端/分区。数据集构建过程包括加载源数据集、按`fsID`分组、创建模拟客户端、分配客户端标签偏好和大小目标,并最终将客户端本地训练和测试子集合并为全局`train`和`test`分割。该数据集适用于联邦学习、非IID音频分类、客户端分布偏移等研究。
This dataset is a federated, non-IID repartitioning of the original UrbanSound8K dataset, designed for experiments in client-partitioned audio classification. The source dataset contains labeled urban sound excerpts of up to 4 seconds from 10 urban sound classes. This derived dataset keeps the original audio examples and metadata but reorganizes them into 50 simulated federated clients. Each row includes a `clientID` column identifying the simulated client/silo to which the example belongs. The dataset construction process involves loading the source dataset, grouping samples by `fsID`, creating simulated clients, sampling client label preferences and size targets, and concatenating client-local train and test subsets into global `train` and `test` splits. The dataset is intended for research in federated learning, non-IID audio classification, client distribution shift, and related areas.
提供机构:
flwrlabs
搜集汇总
数据集介绍

构建方式
该数据集基于Hugging Face上已有的UrbanSound8K版本进行联邦式非独立同分布的重构。构建时,首先保留源数据中标识原始Freesound录音分组的fsID字段,将所有源自同一录音的音频片段归入同一模拟客户端。随后,从狄利克雷分布中采样各客户端的标签偏好,从对数正态分布中采样客户端规模目标,并采用贪心算法将完整的fsID组依次分配到50个模拟客户端,确保组内标签分布、客户端偏好与规模三者间大致匹配。每个客户端的数据进一步按9:1比例切分为本地训练集与测试集,最后将所有客户端的训练子集合并为全局训练集,测试子集合并为全局测试集,同时保留audio列为Hugging Face音频特征。
特点
该数据集具有鲜明的非独立同分布特性,主要体现在四个方面:源录音分组保护确保同一fsID下的所有样本始终归属于同一客户端,保留了音频数据内在的关联性;狄利克雷分布引入的标签偏斜使各客户端拥有差异化的类别偏好;对数正态分布导致的规模不均衡使客户端之间样本数量悬殊;最小分组约束则避免出现空客户端。数据集共包含7858条训练样本与874条测试样本,每条记录都附有clientID字段以标识所属客户端,可供音频分类领域的联邦学习研究直接使用。
使用方法
使用者可通过Hugging Face datasets库直接加载该数据集,调用load_dataset('flwrlabs/fed-urbansound8k')即可获得train和test两个全局拆分。若要访问单个客户端的本地分区,可借助flwr_datasets库中的FederatedDataset与NaturalIdPartitioner,指定partition_by='clientID'后调用load_partition(partition_id)函数获取指定客户端的数据。用于音频分类训练时,建议选择classID或class作为标签列。该数据集专为联邦学习、非独立同分布音频分类、客户端分布漂移等研究场景设计,但不建议替代真实采集的客户端音频数据用于部署系统评估。
背景与挑战
背景概述
声音场景分类作为智能城市与环境监测的关键技术,近年来受到广泛关注。UrbanSound8K数据集于2014年由Justin Salamon等人提出,开创性地构建了包含10类城市声音标签的语料库,为声音事件识别研究奠定了基础。由此衍生的fed-urbansound8k数据集由Flower Labs研究团队于近年创建,旨在推动联邦学习在音频分类中的非独立同分布数据场景研究。该数据集在保留原始8732条标注音频的基础上,通过fsID源组分组策略,将数据重构为50个模拟客户端,精准刻画了真实联邦场景中数据分布异构性。这一工作为联邦音频分类、客户端偏移鲁棒性等研究提供了标准基准,有力推动了联邦学习与音频分析的交叉领域发展。
当前挑战
该数据集所解决的领域问题核心在于联邦学习框架下音频分类面临的非独立同分布挑战。具体而言,不同客户端收集的音频数据天然存在标签分布倾斜与样本量不均衡,源组保存策略进一步放大了数据异质性,对联邦聚合算法的收敛性与泛化能力构成严峻考验。在数据集构建过程中,研究团队面临双重技术难点:一是如何在保持原始声音源完整性的同时,通过狄利克雷分布与对数正态分布实现可控的客户端偏好与尺寸偏移;二是贪婪分配算法需权衡源组标签分布、客户端倾向与最小分组约束间的复杂关系,确保模拟场景既逼近真实又具备可复现性。这些设计难题成就了一个兼具挑战性与实用性的联邦音频基准数据集。
常用场景
经典使用场景
在联邦学习与音频分类交叉研究领域,fed-urbansound8k数据集被广泛用于模拟非独立同分布(non-IID)场景下的分布式音频分类任务。其核心设计理念在于通过保留原始Freesound录音组标识符(fsID),并利用狄利克雷分布与对数正态分布分别刻画客户端的标签偏好与数据量差异,构建出50个具有真实异构性的模拟客户端。研究者通常以此数据集为基准,评估联邦平均算法在音频模态下的鲁棒性,或者验证个性化联邦学习方法在面对客户端标签偏移与大小不平衡时的表现。
解决学术问题
该数据集精准回应了联邦学习中两个长期困扰学界的关键难题:如何在不暴露原始数据分布的前提下,模拟实际部署中普遍存在的客户端数据异质性;以及如何将音频领域的声学特征差异(如同一录音片段的不同截取窗口)转化为可量化的非独立同分布指标。通过强制保持同源录音片段归属同一客户端,fed-urbansound8k揭示了经典联邦聚合策略在音频分类任务中因域内分布偏移而导致的性能退化现象,为学术界研究跨客户端知识蒸馏、梯度压缩以及通信效率优化提供了标准化的挑战性实验平台。
衍生相关工作
围绕此数据集的异构分片特性,衍生出了一系列标志性学术工作。基于同一分片逻辑,研究者提出了融合声学嵌入的联邦对比学习框架,用以缓解客户端间的类别不平衡;另有工作将其扩展为多模态联邦学习基线,在客户端本地维护轻量级特征提取器以降低通信开销。此外,该数据集催生了若干联邦学习系统优化研究,包括基于类原型修正的自适应聚合策略、针对音频时序依赖的局部微调算法以及非参数化客户端聚类方法,这些工作共同拓展了分布式音频分析的理论边界。
以上内容由遇见数据集搜集并总结生成



