Non-IID Dataset

github2023-01-18 更新2024-05-31 收录

下载链接：

https://github.com/ZJU-DistributedAI/GalaxyDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于联邦学习中，专门设计来模拟和评估非独立同分布(Non-IID)数据场景。它包括生成非IID数据集的方法和评估机器学习算法性能的指标。

This dataset is designed for federated learning, specifically to simulate and evaluate non-independent and identically distributed (Non-IID) data scenarios. It includes methods for generating Non-IID datasets and metrics for assessing the performance of machine learning algorithms.

创建时间：

2019-08-20

原始信息汇总

数据集概述

数据集名称

Non-IID Dataset and Evaluation Metrics For Federated Learning

数据集目的

该数据集旨在研究联邦学习中的非独立同分布（Non-IID）数据问题，提供一个模块化基准框架，包括数据分布度量、非IID数据集生成和评估机器学习算法性能的指标。

数据集组成

Non-IID Dataset Module
- Requirements: 包括matplotlib, pandas, torch等库。
- Non-IID Equation Definition: 定义了一个度量数据分布偏移的标准。
- Non-IID Dataset Generation: 提供根据节点数分割CIFAR10数据集的方法，支持通过config.yaml自定义分割模式和节点配置。
Evaluation Metrics
- Data Nodes Number: 研究多节点参与学习的过程。
- The Communication Rounds: 评估节点通信轮次对模型性能的影响。
- The Weight of Data Nodes: 研究节点权重对模型准确性的影响。
- The Quality of Data Nodes: 研究数据节点质量对模型性能的影响。

数据集使用方法

Non-IID Dataset Generation: 使用downloadData.py, makeDataset.py和preprocess.py生成非IID数据集。
Evaluation Metrics: 通过分析数据节点数量、通信轮次、节点权重和数据节点质量来评估模型性能。

数据集配置

config.yaml: 用于设置非IID数据集的生成参数，包括节点数、分割模式等。

数据集示例

使用CIFAR10数据集进行分割，生成非IID数据集，并通过config.yaml配置相关参数。

结论

该数据集为联邦学习中的非IID数据问题提供了一个全面的解决方案，包括数据集生成、度量定义和性能评估，适用于研究和开发联邦学习算法。

搜集汇总

数据集介绍

构建方式

在联邦学习的背景下，Non-IID数据集的构建旨在模拟分布式边缘设备上的数据分布特性，以解决传统深度学习中数据独立同分布（IID）假设的局限性。该数据集通过引入非独立同分布（Non-IID）的数学度量标准，结合特征提取器和类别定义，量化数据分布的偏移程度。具体构建过程包括下载数据集、运行NEI.py脚本以计算分布偏移，并通过配置文件config.yaml自定义数据集的分割方式、节点数量及类别分布，最终生成符合Non-IID特性的数据集。

使用方法

使用Non-IID数据集进行研究时，首先需下载所需的基础数据集，如MNIST或CIFAR10。随后，根据研究需求调整config.yaml文件中的参数，包括节点数量、数据集大小及分割模式等。执行makeDataset.py脚本生成Non-IID数据集，并通过preprocess.py脚本进行预处理，最终得到可供模型训练和评估的数据集。此外，数据集还附带了详细的评估指标，如数据节点数量、通信轮次及数据节点质量等，以全面评估联邦学习模型的性能。

背景与挑战

背景概述

在分布式机器学习领域，联邦学习作为一种新兴范式，旨在通过分布式边缘设备（如智能手机）协作训练共享模型，同时保持数据在本地，从而充分利用分散在数百万节点上的数据并保护数据隐私。然而，联邦学习面临的一个显著挑战是数据分布在不同节点上违反了传统深度学习中数据独立同分布（IID）的假设。因此，非独立同分布（Non-IID）数据集成为联邦学习中的一个研究热点。该数据集由一组研究人员提出，旨在通过数学方程、可定制的生成解决方案和评估指标，构建一个模块化的基准测试框架，以衡量和生成非IID数据集，并评估机器学习算法在非IID数据上的性能。

当前挑战

构建Non-IID数据集面临的主要挑战包括：首先，如何准确测量数据分布的非独立性和非同分布性，这需要复杂的数学模型和计算方法。其次，生成符合特定非IID特性的数据集需要高度定制化的配置和复杂的分割算法，以确保数据集的多样性和代表性。此外，评估机器学习算法在非IID数据上的性能也是一个挑战，因为传统的评估指标可能不再适用，需要开发新的评估方法来准确反映模型在实际分布不均的数据上的表现。最后，确保生成的数据集在实际应用中具有广泛的代表性和实用性，也是一个重要的挑战。

常用场景

经典使用场景

在联邦学习的背景下，Non-IID数据集被广泛应用于模拟分布式节点间的数据异质性。通过该数据集，研究者能够评估和优化联邦学习算法在非独立同分布数据环境下的性能。具体而言，数据集支持生成具有不同分布特性的子数据集，从而模拟真实世界中设备间的数据差异，为联邦学习模型的鲁棒性和泛化能力提供测试基准。

解决学术问题

Non-IID数据集解决了联邦学习中一个关键的学术问题，即如何在数据分布不均匀的情况下有效训练全局模型。传统的机器学习假设数据是独立同分布的，但在实际应用中，不同设备上的数据往往具有显著的异质性。该数据集通过提供非独立同分布的数据生成和评估工具，帮助研究者探索和解决这一问题，推动了联邦学习理论的发展。

实际应用

在实际应用中，Non-IID数据集为联邦学习在边缘计算和物联网领域的部署提供了重要的支持。例如，在智能医疗系统中，不同地区的医疗数据可能具有显著的差异，使用该数据集可以模拟并优化联邦学习模型，以确保其在不同数据环境下的有效性和隐私保护。此外，该数据集还可用于评估和改进其他分布式机器学习算法，如分布式优化和隐私保护技术。

数据集最近研究