non-iid-dataset-for-personalized-federated-learning

github2024-04-02 更新2024-05-31 收录

下载链接：

https://github.com/jeremy313/non-iid-dataset-for-personalized-federated-learning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于个性化联邦学习，支持在非独立同分布数据集上进行高效的通信。数据集基于mnist和cifar10，通过特定的参数配置如客户端数量、每客户端的图像类别数、每类别的样本数以及非平衡率来生成非独立同分布的数据集。

This dataset is designed for personalized federated learning, facilitating efficient communication over non-independent and identically distributed (non-IID) datasets. It is based on MNIST and CIFAR10, and generates non-IID datasets through specific parameter configurations such as the number of clients, the number of image categories per client, the number of samples per category, and the imbalance rate.

创建时间：

2020-05-25

原始信息汇总

数据集概述

数据集名称

non-iid-dataset-for-personalized-federated-learning

数据集用途

用于支持论文 "LotteryFL: Personalized and Communication-Efficient Federated Learning with Lottery Ticket Hypothesis on Non-IID Datasets" 的研究。

数据集组成

包含 MNIST 和 CIFAR10 数据集的非独立同分布（non-iid）版本。
数据集需放置于特定目录：
- MNIST: ./data/mnist
- CIFAR10: ./data/cifar

数据集参数

数据集通过两个函数进行处理：

get_dataset_cifar10_extr_noniid
get_dataset_mnist_extr_noniid

这两个函数共享以下四个参数：

num_users: 客户端数量。
nclass: 每个客户端拥有的图像类别数。
nsamples: 每个类别分配给客户端的样本数。
rate_unbalance: 非独立同分布数据集的不平衡率。

搜集汇总

数据集介绍

构建方式

该数据集是为个性化联邦学习中的非独立同分布（Non-IID）场景而构建的，基于MNIST和CIFAR10两个经典图像数据集。通过特定的函数`get_dataset_cifar10_extr_noniid`和`get_dataset_mnist_extr_noniid`，用户可以根据需求将数据分配给多个客户端。每个客户端的数据分布通过参数`num_users`、`nclass`、`nsamples`和`rate_unbalance`进行控制，从而模拟真实世界中的非均衡数据分布。

特点

该数据集的核心特点在于其非独立同分布的特性，能够有效模拟联邦学习中的个性化场景。通过调整客户端数量、类别数量、样本数量以及不均衡率，用户可以生成多样化的数据分布，从而更好地评估联邦学习算法在非均衡数据环境下的表现。此外，数据集基于torchvision实现，确保了与PyTorch生态系统的无缝集成。

使用方法

使用该数据集时，用户需首先安装PyTorch和torchvision，并下载MNIST和CIFAR10数据集，将其放置在指定目录下。随后，通过调用`get_dataset_cifar10_extr_noniid`或`get_dataset_mnist_extr_noniid`函数，用户可以根据具体需求生成非独立同分布的数据集。这些函数允许用户灵活调整客户端数量、类别数量、样本数量以及不均衡率，从而生成符合实验需求的数据分布。

背景与挑战

背景概述

在联邦学习领域，数据的非独立同分布（Non-IID）特性一直是影响模型性能的关键因素。为应对这一挑战，研究人员开发了名为‘non-iid-dataset-for-personalized-federated-learning’的数据集，该数据集旨在支持个性化联邦学习的研究。该数据集由‘LotteryFL: Personalized and Communication-Efficient Federated Learning with Lottery Ticket Hypothesis on Non-IID Datasets’论文的作者团队创建，主要基于MNIST和CIFAR10数据集进行扩展，以模拟真实世界中的非独立同分布数据场景。通过该数据集，研究人员能够更深入地探索在非独立同分布数据下，如何实现高效且个性化的联邦学习模型。

当前挑战

该数据集的核心挑战在于如何有效模拟真实世界中的非独立同分布数据，并在此基础上实现个性化联邦学习。首先，非独立同分布数据的生成需要精确控制每个客户端的数据分布，以确保数据的多样性和不平衡性，这对数据集的构建提出了较高的技术要求。其次，个性化联邦学习的目标是在保证模型性能的同时，减少客户端之间的通信开销，这需要在数据分布和模型训练之间找到平衡。此外，数据集的扩展和优化也面临挑战，如何在保持数据多样性的同时，确保数据集的易用性和可扩展性，是研究人员需要持续解决的问题。

常用场景

经典使用场景

在个性化联邦学习领域，non-iid-dataset-for-personalized-federated-learning数据集被广泛应用于模拟非独立同分布（Non-IID）数据环境。通过该数据集，研究人员能够深入探索在数据分布不均的情况下，如何优化模型训练过程，提升个性化联邦学习的性能。

衍生相关工作

基于该数据集，许多经典研究工作得以展开，例如“LotteryFL: Personalized and Communication-Efficient Federated Learning with Lottery Ticket Hypothesis on Non-IID Datasets”等。这些研究不仅在理论上推动了联邦学习的发展，还在实际应用中验证了其有效性，为后续研究提供了宝贵的参考和借鉴。

数据集最近研究