FL_synthetic_dataset_generator

github2023-04-08 更新2024-05-31 收录

下载链接：

https://github.com/huangjie-nn/FL_synthetic_dataset_generator

下载链接

链接失效反馈

官方服务：

资源简介：

用于联邦学习的合成数据集生成器，可以控制数据样本大小、模型权重差异、数据生成过程差异和标签分布差异，以模拟联邦学习环境中的数据异构性。

A synthetic dataset generator for federated learning, capable of controlling sample size, model weight divergence, data generation process divergence, and label distribution divergence to simulate data heterogeneity in federated learning environments.

创建时间：

2020-05-29

原始信息汇总

数据集概述

数据集生成控制参数

数据大小差异：用户可控制每个参与方的数据样本大小。
模型权重差异：用户可控制所有参与方基础模型权重的异质性。
数据生成过程差异：特征差异控制各参与方特征空间的异质性。
标签分布差异：用户可控制各参与方的标签分布。

数据集详细信息

meta信息：
- n_parties：模拟联邦学习任务中的参与方数量。
- n_classes：模拟联邦学习任务中的类别数量。
- n_features：模拟联邦学习任务中的特征数量。
- seed：模拟联邦学习任务中使用的随机种子。
- testset_size_per_party：每个参与方在模拟联邦学习任务中生成的测试样本数量。
特征分布：
- x_mean：长度为num_features的列表，每个值代表特定特征的高斯采样均值。
- x_sigma：长度为num_features的列表，每个值代表特定特征的高斯采样标准差。
样本大小：
- data_portion：长度为num_parties或num_parties-1的列表，每个值表示每个参与方持有的总大小的部分。
- total_size：所有参与方持有的数据样本总数，仅包括训练集。
标签分布：
- 用户可指定每个参与方的标签分布，空值表示该特定参与方的标签分布平衡。
噪声：
- noise_level：用户为每个参与方指定的噪声尺度。
- x_level_noise：噪声注入的阶段，1表示在标签生成前注入，0表示在标签生成后注入。
模型扰动：
- mean：每个参与方的均值列表，用于从高斯分布中采样扰动矩阵的条目。
- std：每个参与方的标准差列表，用于从高斯分布中采样扰动矩阵的条目。

使用方法

用户需在param.json中指定参数，并通过运行python main.py生成合成数据集。

搜集汇总

数据集介绍

构建方式

FL_synthetic_dataset_generator数据集的构建方法基于联邦学习的非独立同分布（non-iid）特性，通过多高斯采样过程生成特征数据。用户可控制各参与方的数据样本大小、模型权重差异、特征空间异质性以及标签分布。具体参数包括参与方数量、类别数量、特征数量、随机种子和测试集大小等，确保了数据生成的灵活性和可控性。

特点

该数据集的特点在于其高度可配置性，用户能够精确控制数据样本大小、模型权重差异、特征空间异质性和标签分布。通过多高斯采样过程生成特征数据，确保了特征空间的多样性。此外，用户还可以在数据生成过程中注入噪声，并控制噪声的注入时机和幅度，进一步模拟真实场景中的不确定性。

使用方法

使用FL_synthetic_dataset_generator数据集时，用户只需在param.json文件中指定相关参数，如参与方数量、类别数量、特征数量等。通过运行`python main.py`命令，即可生成符合需求的合成数据集。该数据集适用于联邦学习算法的基准测试和性能评估，帮助研究人员更好地理解和优化联邦学习模型。

背景与挑战

背景概述

FL_synthetic_dataset_generator数据集是为联邦学习（Federated Learning, FL）领域设计的合成数据生成工具。联邦学习作为一种新兴的分布式机器学习范式，其核心挑战在于数据的非独立同分布（non-iid）特性。传统的数据集生成方法难以精确控制数据的异质性，而该数据集通过提供高度可配置的参数，允许用户模拟不同数据分布、模型权重、特征空间和标签分布的异质性。该工具由相关领域的研究人员开发，旨在为联邦学习算法的基准测试提供更灵活和可控的实验环境，从而推动联邦学习在隐私保护、数据安全等领域的应用。

当前挑战

FL_synthetic_dataset_generator面临的挑战主要体现在两个方面。首先，在解决领域问题上，联邦学习中的数据异质性问题极为复杂，如何生成能够准确反映真实场景中数据分布差异的合成数据，仍是一个技术难点。其次，在数据集构建过程中，用户需要对数据规模、模型权重、特征分布和标签分布等多个维度进行精细控制，这对算法的设计和实现提出了较高要求。此外，噪声注入和模型扰动的引入进一步增加了数据生成的复杂性，如何在保证数据多样性的同时避免过拟合或欠拟合，是数据集构建中的另一大挑战。

常用场景

经典使用场景

FL_synthetic_dataset_generator数据集在联邦学习领域中被广泛用于模拟非独立同分布（non-iid）数据环境。通过该数据集，研究者能够生成具有不同数据分布、特征空间和标签分布的合成数据，从而在联邦学习框架下进行模型训练和性能评估。这种数据生成方式为联邦学习算法的开发和优化提供了高度可控的实验环境。

衍生相关工作

基于FL_synthetic_dataset_generator，许多经典研究工作得以展开。例如，研究者利用该数据集开发了针对非iid数据的联邦学习优化算法，如FedProx和SCAFFOLD。此外，该数据集还被用于评估联邦学习中的通信效率、模型聚合策略以及隐私保护机制，推动了联邦学习领域的前沿研究。

数据集最近研究