five

FLBench|联邦学习数据集|性能评估数据集

收藏
arXiv2021-03-12 更新2024-06-21 收录
联邦学习
性能评估
下载链接:
https://www.benchcouncil.org/flbench.html
下载链接
链接失效反馈
资源简介:
FLBench是一个针对联邦学习的基准套件,涵盖医疗、金融和AIoT三个领域。该数据集包含四个子数据集,分别来自医疗领域的ADNI和MIMIC-III、金融领域的Adult dataset以及AIoT领域的iNaturalist-User-120k。FLBench旨在评估联邦学习系统与算法的多个关键方面,如通信效率、场景转换、隐私保护、数据分布异质性和合作策略。通过提供可配置的场景,FLBench支持开发新型联邦学习算法,并已作为自动化部署工具开源,适用于多种平台。
提供机构:
广西多源信息挖掘与安全重点实验室
创建时间:
2020-08-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
FLBench 数据集的构建旨在模拟真实世界中的数据孤岛场景,以评估联邦学习系统与算法的通信效率、场景转换、隐私保护、数据分布异构性和协作策略等关键方面。该数据集包含了三个领域:医疗、金融和AIoT。构建过程中,首先选取了医疗、金融和AIoT三个最具代表性的领域,并收集了这些领域中的实际数据。随后,对这些数据进行复杂的数据预处理,以确保数据的质量和可用性。在场景配置阶段,FLBench 提供了可定制的场景,以满足不同研究的需求。最后,为了方便用户部署和使用,FLBench 还设计了一个自动部署工具。
特点
FLBench 数据集的特点在于其真实性和可定制性。该数据集包含了医疗、金融和AIoT三个领域的实际数据,能够更好地模拟真实世界中的数据孤岛场景。此外,FLBench 还提供了可定制的场景,以满足不同研究的需求。这使得FLBench成为一个具有广泛适用性的联邦学习算法开发平台。
使用方法
FLBench 数据集的使用方法包括以下步骤:首先,用户需要根据自己的研究需求选择相应的领域和场景。其次,用户需要使用FLBench提供的API进行场景配置。最后,用户可以使用FLBench自动部署工具将场景部署到不同的平台上,并进行联邦学习算法的开发和测试。
背景与挑战
背景概述
在人工智能领域,联邦学习(Federated Learning,FL)作为一种新的机器学习范式,旨在构建一个机器学习模型,同时保持数据的安全和隐私。FLBench数据集由广西师范大学计算机科学系的多源信息挖掘与安全广西重点实验室、中国科学院计算技术研究所以及桂林电子科技大学可信软件广西重点实验室的研究人员联合创建。该数据集的创建时间可以追溯到2021年3月,其核心研究问题在于如何构建一个能够模拟真实世界数据孤岛场景的联邦学习系统,并在此基础上评估联邦学习系统与算法的性能。FLBench数据集的提出,对联邦学习领域的研究产生了深远的影响,为开发新的联邦学习算法提供了一个有价值的平台。
当前挑战
FLBench数据集面临的挑战主要包括:1)如何模拟真实世界的孤立数据岛场景,包括数据分布的非独立同分布(Non-IID)特性、通信效率、隐私保护、数据异构性和合作策略等方面的挑战;2)如何构建一个能够适应未来发展的联邦学习基准,包括提供更多的场景和相关的API,并使其能够部署在不同的平台上。
常用场景
经典使用场景
FLBench作为一个联邦学习的基准测试套件,涵盖了医疗、金融和AIoT三个领域。它为联邦学习系统与算法的评估提供了多样化场景,能够模拟现实世界的孤立数据岛场景,包括通信、场景转换、隐私保护、数据分布异构性和合作策略等方面。这使得FLBench成为开发新型联邦学习算法的潜在平台。
解决学术问题
FLBench解决了现有联邦学习基准测试套件未能捕捉现实世界孤立数据岛内在特征的问题。它通过提供各种定制场景,为联邦学习算法的研究提供了真实世界的应用场景,有助于开发出更符合实际需求的联邦学习算法。
衍生相关工作
FLBench的发布促进了联邦学习领域的研究进展。它衍生了更多针对特定领域和场景的联邦学习算法,如医疗诊断、金融风险评估和AIoT设备协同学习等。这些研究工作进一步推动了联邦学习技术的实用化和商业化进程。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录