FNBench

Name: FNBench
Creator: 中国科学院计算技术研究所
Published: 2025-05-11 00:14:52
License: 暂无描述

arXiv2025-05-11 更新2025-05-14 收录

下载链接：

https://github.com/Sprinter1999/FNBench

下载链接

链接失效反馈

官方服务：

资源简介：

FNBench是一个基准研究，旨在评估联邦学习（FL）在面对噪声标签时的鲁棒性。该数据集考虑了三种不同的噪声标签模式，包括合成标签噪声、不完美的人为标注错误和系统性错误。评估涉及了五种图像识别数据集和一个文本分类数据集，并纳入了十八种最先进的方法。数据集的创建旨在解决联邦学习中数据质量保证的问题，特别是当客户端的本地数据集可能包含不同程度的标签噪声时。FNBench为联邦学习社区提供了一个实验平台，以便研究人员可以测试和比较不同方法的性能。

FNBench is a benchmark study designed to evaluate the robustness of Federated Learning (FL) against noisy labels. The test datasets adopted by this benchmark cover three distinct noisy label patterns, including synthetic label noise, imperfect human annotation errors, and systematic errors. The evaluation involves five image recognition datasets and one text classification dataset, and incorporates eighteen state-of-the-art methods. The development of FNBench aims to address the challenge of data quality assurance in federated learning, particularly when local datasets held by clients may contain varying degrees of label noise. FNBench provides an experimental platform for the federated learning community, enabling researchers to test and compare the performance of different methods.

提供机构：

中国科学院计算技术研究所

创建时间：

2025-05-11

搜集汇总

数据集介绍

构建方式

FNBench数据集通过整合三种不同的标签噪声模式构建而成，包括合成标签噪声、不完美的人工标注错误以及系统性错误。具体而言，合成标签噪声通过对称标签噪声、配对翻转标签噪声和混合标签噪声协议生成；不完美的人工标注错误则直接采用CIFAR-10/100-N数据集中的真实人类标注噪声；系统性错误则通过Clothing1M数据集中的自然非结构化噪声实现。数据划分采用分片和Dirichlet分布两种方式，确保数据在客户端间非独立同分布。

使用方法

FNBench数据集的使用方法包括加载预划分的客户端数据、注入标签噪声以及训练和评估联邦学习模型。研究人员可以利用提供的开源代码框架，轻松配置不同的噪声模式和实验设置，进行方法比较和性能评估。数据集还支持自定义噪声注入和数据划分策略，方便用户根据需求进行扩展和定制。

背景与挑战

背景概述

FNBench是由中国科学院计算技术研究所的研究团队于2025年提出的首个面向联邦学习中噪声标签问题的基准测试框架。该数据集由Xuefeng Jiang、Jia Li等学者在《IEEE Transactions on Dependable and Secure Computing》期刊发表，旨在解决分布式环境下标签噪声对模型性能影响的系统性评估问题。作为联邦学习领域的重要补充，FNBench创新性地整合了三种典型噪声模式（合成噪声、人工标注错误和系统错误）和六种跨模态数据集，填补了该领域缺乏统一评估标准的空白。其核心研究价值在于通过标准化实验设置，揭示了噪声标签导致的维度坍塌现象，并为18种前沿方法提供了可复现的性能比较基准。

当前挑战

FNBench面临双重技术挑战：在领域问题层面，需解决联邦环境下非独立同分布数据与多源噪声标签的耦合效应，如客户端数据质量不可控导致的模型性能退化问题；在构建过程层面，存在三大技术难点：1) 多模态噪声注入的保真度控制，需平衡合成噪声与真实标注错误的语义一致性；2) 跨客户端噪声分布的异构性建模，特别是处理医疗等场景中专业标注的高成本特性；3) 隐私约束下的噪声评估难题，无法直接获取客户端原始数据导致的质量验证困境。此外，文本分类任务的噪声鲁棒性评估也构成了该数据集特有的挑战边界。

常用场景

经典使用场景

FNBench作为首个专注于联邦学习中标签噪声问题的基准测试框架，其经典使用场景集中在多模态数据（图像与文本）的分布式训练环境。该数据集通过模拟三种典型噪声模式（合成标签噪声、人工标注错误及系统性错误），为研究者提供了评估算法鲁棒性的标准化平台。在跨客户端非独立同分布（Non-IID）数据划分下，FNBench尤其适用于验证图像识别（如CIFAR-10/100）和文本分类（如AGNews）任务中噪声标签对模型收敛性和最终性能的影响。

解决学术问题

FNBench系统性地解决了联邦学习领域长期被忽视的标签噪声问题，填补了现有研究在统一评估框架上的空白。通过整合18种前沿方法，该数据集揭示了噪声标签导致模型性能下降的核心机制——维度坍缩（dimensional collapse）和记忆效应（memorization effect）。其提出的表示感知正则化技术（SVD loss）显著提升了现有方法对噪声的鲁棒性，为理解噪声标签如何破坏联邦学习的表示空间提供了理论依据，推动了噪声鲁棒性研究的范式转变。

实际应用

在医疗影像分析、物联网恶意软件检测等隐私敏感场景中，FNBench的评估框架可直接指导实际系统的部署。例如，通过量化不同噪声模式下FedNoRo等方法的校正能力，可优化医疗联邦系统中众包标注数据的质量控制流程；其系统性噪声评估结果亦可用于提升电商平台（如Clothing1M数据集）基于用户生成标签的推荐系统可靠性。该数据集的开源特性进一步降低了工业界在分布式环境中实施噪声鲁棒性方案的验证门槛。

数据集最近研究