five

ProFed|联邦学习数据集|非独立同分布数据数据集

收藏
arXiv2025-03-26 更新2025-03-28 收录
联邦学习
非独立同分布数据
下载链接:
https://github.com/davidedomini/ProFed
下载链接
链接失效反馈
资源简介:
ProFed是一个针对 proximity-based 非独立同分布(non-IID)联邦学习的新型基准测试。该数据集由博洛尼亚大学Cesena创建,旨在通过模拟不同区域的数据分布偏差,为研究人员提供标准化的框架,以更有效和一致地评估联邦学习算法。ProFed利用了知名的计算机视觉数据集,如MNIST、FashionMNIST、CIFAR-10和CIFAR-100,并采用了文献中的数据划分方法,如基于Dirichlet分布的划分。通过允许研究人员控制数据偏斜程度,该方法可以进行细致的实验和分析。
提供机构:
博洛尼亚大学Cesena
创建时间:
2025-03-26
原始信息汇总

ProFed数据集概述

基本信息

  • 数据集名称:ProFed: A Benchmark for Proximity-based Federated Learning

数据集简介

  • ProFed是一个基于邻近性的联邦学习基准测试数据集。

应用领域

  • 联邦学习
  • 邻近性计算
  • 机器学习基准测试

特点

  • 专注于邻近性计算在联邦学习中的应用
  • 提供基准测试功能
AI搜集汇总
数据集介绍
main_image_url
构建方式
ProFed数据集的构建基于地理空间分布的非独立同分布(Non-IID)特性,通过模拟不同区域间的数据偏斜程度来创建真实场景下的联邦学习评估环境。该数据集采用PyTorch和TorchVision框架,整合了MNIST、FashionMNIST、CIFAR-10和CIFAR-100等经典计算机视觉数据集,并应用了Dirichlet分布和硬分区方法进行数据划分。首先在区域层面引入异质性分布,随后在区域内设备间保持同质性分布,从而形成具有空间聚类特性的数据分布模式。
使用方法
使用ProFed进行实验时,研究者可通过其模块化API快速实现数据下载、区域划分及设备分配。典型流程包括:选择基准数据集并指定分区策略(如IID、Dirichlet或硬分区),定义区域数量及偏斜参数,生成设备级数据子集。生成的Subset类对象可直接与PyTorch生态兼容,支持主流联邦学习算法的训练与验证。该框架特别适用于评估空间聚类联邦学习算法的性能,如通过比较FedAvg、FedProx和Scaffold等算法在不同区域划分下的准确率波动,探究地理因素对模型收敛的影响。
背景与挑战
背景概述
ProFed数据集由意大利博洛尼亚大学的Davide Domini、Gianluca Aguzzi和Mirko Viroli等研究人员于2025年提出,旨在解决联邦学习(Federated Learning, FL)中非独立同分布(non-IID)数据的评估问题。该数据集特别关注地理邻近性对数据分布的影响,模拟了现实场景中设备数据因地理位置而产生的相似性。ProFed基于多个经典计算机视觉数据集(如MNIST、FashionMNIST、CIFAR-10和CIFAR-100),通过引入区域划分和数据偏斜方法,为研究者提供了一个标准化框架,以评估联邦学习算法在空间分布数据下的性能。其创新性在于首次将地理邻近性纳入非IID数据分布的建模中,填补了现有基准测试的空白,并对边缘计算、智慧城市等领域的联邦学习研究具有重要推动作用。
当前挑战
ProFed数据集主要解决联邦学习中非IID数据分布的挑战,尤其是地理邻近性导致的数据偏斜问题。具体挑战包括:1)领域问题挑战:现有联邦学习算法(如FedAvg、FedProx)在随机划分的非IID数据上表现良好,但无法有效处理具有空间相关性的数据分布,导致模型在跨区域预测时性能下降;2)构建过程挑战:需设计合理的地理区域划分方法(如Dirichlet分布、硬划分)以模拟真实数据偏斜,同时确保同一区域内数据的IID特性。此外,还需平衡不同区域的样本数量与类别分布,避免极端偏斜对算法评估的干扰。这些挑战使得ProFed在数据分区、基准标准化和算法评估方面具有较高的技术复杂性。
常用场景
经典使用场景
在联邦学习领域,ProFed数据集被广泛应用于模拟地理邻近性导致的非独立同分布数据场景。该数据集通过将MNIST、FashionMNIST等经典计算机视觉数据集按照地理区域进行划分,为研究者提供了评估联邦学习算法在空间相关性数据下的性能基准。其独特的区域聚类数据划分方式,使得同一区域内的设备数据呈现IID特性,而跨区域数据则表现出明显的非IID特征,这种设计极大地提升了联邦学习算法评估的逼真度。
解决学术问题
ProFed数据集主要解决了联邦学习中非独立同分布数据评估标准缺失的关键问题。传统联邦学习算法在评估时往往忽略数据的空间分布特性,而ProFed通过引入区域化数据划分方法,为研究者提供了更贴近真实场景的评估环境。该数据集支持Dirichlet分布和硬划分等多种数据偏斜方式,使得研究者能够系统性地探究不同偏斜程度对算法性能的影响,填补了联邦学习在空间相关性数据评估方面的空白。
实际应用
在实际应用层面,ProFed数据集为智慧城市、区域化医疗等场景提供了重要的研究工具。以交通流量预测为例,不同城区的交通模式存在显著差异,ProFed的区域化数据划分方式能够准确模拟这种空间相关性。该数据集已被用于评估FedAvg、FedProx等算法在区域化数据分布下的表现,为边缘计算设备间的协同学习提供了可靠的性能基准,推动了联邦学习在空间感知场景中的实际部署。
数据集最近研究
最新研究方向
随着联邦学习(Federated Learning, FL)在机器学习领域的广泛应用,数据非独立同分布(Non-IID)问题成为制约其性能的关键挑战。ProFed数据集的提出,填补了现有基准测试在空间分布数据模拟上的空白,为研究者提供了一个标准化框架,以评估算法在真实地理聚类场景下的表现。该数据集通过模拟不同区域间的数据偏斜度,结合Dirichlet分布和硬划分等方法,支持MNIST、FashionMNIST、CIFAR-10和CIFAR-100等经典数据集,为聚类联邦学习(Clustered Federated Learning)的研究提供了重要工具。当前研究热点集中在如何利用空间邻近性优化客户端聚类策略,以及开发新型算法以应对极端数据异构性,这些进展对智慧城市、边缘计算等实际应用场景具有深远意义。
相关研究论文
  • 1
    ProFed: a Benchmark for Proximity-based non-IID Federated Learning博洛尼亚大学Cesena · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

FAOSTAT Forestry

FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。

www.fao.org 收录

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的,包含超过5000条中文语句,每条语句都配有详细的个人资料信息,如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量,旨在解决在语义模糊的实际场景中,传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力,特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录