five

FedAD-Bench|联邦学习数据集|异常检测数据集

收藏
arXiv2024-08-08 更新2024-08-12 收录
联邦学习
异常检测
下载链接:
http://arxiv.org/abs/2408.04442v1
下载链接
链接失效反馈
资源简介:
FedAD-Bench是由德国人工智能研究中心(DFKI)和RPTU Kaiserslautern-Landau共同创建的一个统一基准,专门用于评估联邦学习环境下的无监督异常检测算法。该数据集包含来自医疗和网络安全领域的四个数据集,每个数据集都有不同的样本数量和特征维度。数据集的创建过程特别关注于排除训练集中的异常数据,以确保模型能够更好地学习正常数据的特征。FedAD-Bench主要应用于提高数据隐私和安全性的领域,特别是在网络安全和医疗记录分析中,旨在通过联邦学习方法解决数据隐私保护和异常检测的问题。
提供机构:
德国人工智能研究中心 (DFKI)
创建时间:
2024-08-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
FedAD-Bench的构建方式旨在为联邦学习环境中的无监督异常检测算法提供一个统一的评估平台。该数据集包含了多个不同的数据集和评估指标,以提供一个全面的评估。为了确保模型能够准确地学习正常数据的特征,FedAD-Bench采用了重新设计的数据分割方法,将所有异常数据排除在训练集之外。此外,FedAD-Bench还采用了统一的评估指标集,包括精确率、召回率、AUROC、AUPR和F1分数,以提供一个全面的模型性能评估。在联邦学习方面,FedAD-Bench采用了FedAvg聚合算法,并通过实验评估了FedProx算法的性能。
特点
FedAD-Bench具有几个关键特点。首先,它支持联邦学习,旨在评估在联邦环境中运行的异常检测方法。其次,FedAD-Bench采用了重新设计的数据分割方法,将所有异常数据排除在训练集之外,以提高模型的异常检测能力。此外,FedAD-Bench采用了统一的评估指标集,包括精确率、召回率、AUROC、AUPR和F1分数,以提供一个全面的模型性能评估。最后,FedAD-Bench还采用了FedAvg和FedProx聚合算法,以评估不同的聚合策略对模型性能的影响。
使用方法
使用FedAD-Bench进行异常检测评估的方法如下:首先,将所有异常数据排除在训练集之外,以确保模型能够准确地学习正常数据的特征。然后,使用FedAvg或FedProx聚合算法进行模型训练和聚合。在评估阶段,使用统一的评估指标集,包括精确率、召回率、AUROC、AUPR和F1分数,对模型的性能进行全面评估。最后,根据评估结果,可以比较不同异常检测算法的性能,并选择最适合联邦学习环境的算法。
背景与挑战
背景概述
在联邦学习(FL)和异常检测相结合的背景下,FedAD-Bench数据集应运而生。该数据集由德国人工智能研究中心(DFKI)和特里尔-波恩技术大学(RPTU)的研究团队创建,旨在评估在联邦学习环境中无监督异常检测算法的性能。FedAD-Bench数据集的创建源于对联邦学习在保护隐私的同时利用分布式数据的潜力,以及将联邦学习与异常检测相结合,以检测来自多个敏感数据源的稀有且关键的异常。该数据集通过系统性分析和比较在联邦设置下深度学习异常检测模型的表现,填补了在联邦学习环境中评估异常检测方法性能的研究空白。FedAD-Bench数据集包含了多样化的数据集和指标,以提供全面评估,并旨在建立标准化基准,以指导未来在联邦异常检测领域的研究和开发,促进研究的可重复性和公平比较。
当前挑战
FedAD-Bench数据集面临的挑战包括:1) 异常检测方法在联邦学习环境中的评估仍然是一个未被充分探索的领域;2) 构建过程中所遇到的挑战,例如模型聚合效率低下和指标不可靠。此外,FedAD-Bench数据集还揭示了联邦学习在正则化效应方面的洞察,表明在特定情况下,联邦学习由于其固有的减少过拟合的能力而优于集中式方法。然而,联邦学习在异常检测中的应用仍然面临着一些挑战,包括模型复杂度、数据集的多样性以及模型聚合策略的选择等。
常用场景
经典使用场景
FedAD-Bench数据集主要用于评估在联邦学习环境中无监督异常检测算法的性能。它涵盖了各种数据集和指标,为联邦学习中的异常检测提供了一个全面的评估框架。FedAD-Bench的设计考虑了联邦学习的特性,包括支持联邦学习、重新设计的数据分割和统一的一组评估指标,以确保评估的准确性和公正性。
衍生相关工作
FedAD-Bench数据集的发布衍生了一系列相关的研究工作。这些研究工作包括对联邦学习中异常检测算法的性能分析、对不同聚合策略的比较、以及评估指标的可靠性研究。FedAD-Bench的发布为联邦学习中的异常检测研究提供了一个重要的基础,促进了该领域的进一步发展。
数据集最近研究
最新研究方向
随着联邦学习(FL)的兴起,数据隐私保护成为机器学习领域的关键议题。FedAD-Bench作为一个统一的基准,旨在评估联邦学习环境下的无监督异常检测算法。该数据集聚焦于深度学习在联邦设置中的应用,通过分析多样化的数据集和评估指标,为无监督异常检测算法的性能提供了一个全面的评价。FedAD-Bench的引入填补了联邦学习中异常检测方法评估的空白,并揭示了联邦学习在特定场景下的优势,如通过其固有的正则化效应来减轻过拟合。该研究为联邦异常检测的未来研究和开发提供了一个标准化的基准,促进了研究的可重复性和公平性。
相关研究论文
  • 1
    FedAD-Bench: A Unified Benchmark for Federated Unsupervised Anomaly Detection in Tabular Data德国人工智能研究中心 (DFKI) · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MUStARD++

MUStARD++是一个多模态讽刺检测数据集,由萨里大学创建,旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本,来源于多个流行电视节目,通过手动标注确保高质量的讽刺标签。创建过程中,研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测,帮助机器理解并识别讽刺语境,解决讽刺识别中的多模态挑战。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

US EPA Air Quality System (AQS)

US EPA Air Quality System (AQS) 数据集包含了美国各地的空气质量监测数据,包括污染物浓度、气象数据、监测站点信息等。该数据集用于监测和评估空气质量,支持环境政策和公众健康研究。

www.epa.gov 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录