ProFed

Name: ProFed
Creator: 博洛尼亚大学Cesena
Published: 2025-03-26 23:08:08
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

https://github.com/davidedomini/ProFed

下载链接

链接失效反馈

官方服务：

资源简介：

ProFed是一个针对 proximity-based 非独立同分布（non-IID）联邦学习的新型基准测试。该数据集由博洛尼亚大学Cesena创建，旨在通过模拟不同区域的数据分布偏差，为研究人员提供标准化的框架，以更有效和一致地评估联邦学习算法。ProFed利用了知名的计算机视觉数据集，如MNIST、FashionMNIST、CIFAR-10和CIFAR-100，并采用了文献中的数据划分方法，如基于Dirichlet分布的划分。通过允许研究人员控制数据偏斜程度，该方法可以进行细致的实验和分析。

ProFed is a novel benchmark for proximity-based non-independent and identically distributed (non-IID) federated learning. Developed by the University of Bologna's Cesena Campus, this dataset aims to provide researchers with a standardized framework to evaluate federated learning algorithms more efficiently and consistently by simulating data distribution biases across distinct regions. ProFed leverages well-established computer vision datasets including MNIST, FashionMNIST, CIFAR-10, and CIFAR-100, and adopts data partitioning methods from prior literature, such as Dirichlet distribution-based partitioning. By permitting researchers to control the degree of data skew, this framework supports detailed experimental investigations and comprehensive analysis.

提供机构：

博洛尼亚大学Cesena

创建时间：

2025-03-26

原始信息汇总

ProFed数据集概述

基本信息

数据集名称：ProFed: A Benchmark for Proximity-based Federated Learning

数据集简介

ProFed是一个基于邻近性的联邦学习基准测试数据集。

应用领域

联邦学习
邻近性计算
机器学习基准测试

特点

专注于邻近性计算在联邦学习中的应用
提供基准测试功能

搜集汇总

数据集介绍

构建方式

ProFed数据集的构建基于地理空间分布的非独立同分布（Non-IID）特性，通过模拟不同区域间的数据偏斜程度来创建真实场景下的联邦学习评估环境。该数据集采用PyTorch和TorchVision框架，整合了MNIST、FashionMNIST、CIFAR-10和CIFAR-100等经典计算机视觉数据集，并应用了Dirichlet分布和硬分区方法进行数据划分。首先在区域层面引入异质性分布，随后在区域内设备间保持同质性分布，从而形成具有空间聚类特性的数据分布模式。

使用方法

使用ProFed进行实验时，研究者可通过其模块化API快速实现数据下载、区域划分及设备分配。典型流程包括：选择基准数据集并指定分区策略（如IID、Dirichlet或硬分区），定义区域数量及偏斜参数，生成设备级数据子集。生成的Subset类对象可直接与PyTorch生态兼容，支持主流联邦学习算法的训练与验证。该框架特别适用于评估空间聚类联邦学习算法的性能，如通过比较FedAvg、FedProx和Scaffold等算法在不同区域划分下的准确率波动，探究地理因素对模型收敛的影响。

背景与挑战

背景概述

ProFed数据集由意大利博洛尼亚大学的Davide Domini、Gianluca Aguzzi和Mirko Viroli等研究人员于2025年提出，旨在解决联邦学习（Federated Learning, FL）中非独立同分布（non-IID）数据的评估问题。该数据集特别关注地理邻近性对数据分布的影响，模拟了现实场景中设备数据因地理位置而产生的相似性。ProFed基于多个经典计算机视觉数据集（如MNIST、FashionMNIST、CIFAR-10和CIFAR-100），通过引入区域划分和数据偏斜方法，为研究者提供了一个标准化框架，以评估联邦学习算法在空间分布数据下的性能。其创新性在于首次将地理邻近性纳入非IID数据分布的建模中，填补了现有基准测试的空白，并对边缘计算、智慧城市等领域的联邦学习研究具有重要推动作用。

当前挑战

ProFed数据集主要解决联邦学习中非IID数据分布的挑战，尤其是地理邻近性导致的数据偏斜问题。具体挑战包括：1）领域问题挑战：现有联邦学习算法（如FedAvg、FedProx）在随机划分的非IID数据上表现良好，但无法有效处理具有空间相关性的数据分布，导致模型在跨区域预测时性能下降；2）构建过程挑战：需设计合理的地理区域划分方法（如Dirichlet分布、硬划分）以模拟真实数据偏斜，同时确保同一区域内数据的IID特性。此外，还需平衡不同区域的样本数量与类别分布，避免极端偏斜对算法评估的干扰。这些挑战使得ProFed在数据分区、基准标准化和算法评估方面具有较高的技术复杂性。

常用场景

经典使用场景

在联邦学习领域，ProFed数据集被广泛应用于模拟地理邻近性导致的非独立同分布数据场景。该数据集通过将MNIST、FashionMNIST等经典计算机视觉数据集按照地理区域进行划分，为研究者提供了评估联邦学习算法在空间相关性数据下的性能基准。其独特的区域聚类数据划分方式，使得同一区域内的设备数据呈现IID特性，而跨区域数据则表现出明显的非IID特征，这种设计极大地提升了联邦学习算法评估的逼真度。

解决学术问题

ProFed数据集主要解决了联邦学习中非独立同分布数据评估标准缺失的关键问题。传统联邦学习算法在评估时往往忽略数据的空间分布特性，而ProFed通过引入区域化数据划分方法，为研究者提供了更贴近真实场景的评估环境。该数据集支持Dirichlet分布和硬划分等多种数据偏斜方式，使得研究者能够系统性地探究不同偏斜程度对算法性能的影响，填补了联邦学习在空间相关性数据评估方面的空白。

实际应用

在实际应用层面，ProFed数据集为智慧城市、区域化医疗等场景提供了重要的研究工具。以交通流量预测为例，不同城区的交通模式存在显著差异，ProFed的区域化数据划分方式能够准确模拟这种空间相关性。该数据集已被用于评估FedAvg、FedProx等算法在区域化数据分布下的表现，为边缘计算设备间的协同学习提供了可靠的性能基准，推动了联邦学习在空间感知场景中的实际部署。

数据集最近研究