MNIST, FashionMNIST

github2023-11-29 更新2024-05-31 收录

下载链接：

https://github.com/AliBeikmohammadi/FedAlgo_WO_DataSim

下载链接

链接失效反馈

官方服务：

资源简介：

用于实验的MNIST和FashionMNIST数据集，分别用于测试不同的联邦学习算法在固定、递减和步长衰减步长下的训练损失和测试准确性。

The MNIST and FashionMNIST datasets used for experiments are respectively employed to test the training loss and test accuracy of different federated learning algorithms under fixed, decaying, and step-decaying learning rate schedules.

创建时间：

2023-11-29

原始信息汇总

数据集概述

数据集名称

FedAlgo_WO_DataSim

数据集内容

包含对MNIST和FashionMNIST数据集的实验结果。
实验涉及的算法包括FedAvg, FedProx, error-feedback FedAvg, 和 error-feedback FedProx。
实验评估了不同步长策略（固定、递减、阶梯衰减）下的训练损失和测试准确率。

实验结果

固定步长：
- MNIST：Figure 1展示了FedAvg, error-feedback FedAvg, FedProx, 和 error-feedback FedProx的训练损失和测试准确率。
- FashionMNIST：Figure 2展示了相同算法的训练损失和测试准确率。
递减步长：
- MNIST：Figure 3展示了FedAvg, error-feedback FedAvg, FedProx, 和 error-feedback FedProx的训练损失和测试准确率。
- FashionMNIST：Figure 4展示了相同算法的训练损失和测试准确率。
阶梯衰减步长：
- MNIST：Figure 5展示了FedAvg, error-feedback FedAvg, FedProx, 和 error-feedback FedProx的训练损失和测试准确率。
- FashionMNIST：Figure 6展示了相同算法的训练损失和测试准确率。

数据集使用

数据集下载：数据集将下载至data文件夹。
训练监控：通过tensorboard文件夹监控训练进度。
日志记录：训练过程日志记录在CSV/[dataset name]文件夹的CSV文件中。

结果处理

CSV文件聚合：使用AggregateCSVs.ipynb生成包含平均值和标准差的单个CSV文件。
结果绘图：使用PlotResults.ipynb绘制输出图表。

引用信息

数据集相关研究已提交至IEEE Transactions on Big Data。
引用时请参考相关论文。

搜集汇总

数据集介绍

构建方式

MNIST和FashionMNIST数据集的构建基于经典的图像分类任务，分别包含手写数字和时尚单品的灰度图像。这些数据集通过标准化的图像采集和标注流程生成，确保了数据的多样性和代表性。在联邦学习框架下，数据集被进一步划分为多个子集，模拟分布式环境中的非独立同分布（non-iid）数据分布，以验证不同算法的鲁棒性和适应性。

使用方法

使用MNIST和FashionMNIST数据集进行联邦学习实验时，可通过命令行工具启动训练过程，并自定义数据集类型、批量大小、全局迭代次数等参数。实验过程中，训练进度可通过TensorBoard实时监控，结果将保存为CSV文件。通过`AggregateCSVs.ipynb`脚本，可聚合多次实验的CSV文件，计算均值和标准差。最后，利用`PlotResults.ipynb`脚本绘制实验结果图，直观展示不同算法在训练损失和测试准确率上的表现。

背景与挑战

背景概述

MNIST和FashionMNIST数据集是机器学习领域中广泛使用的基准数据集，分别用于手写数字识别和时尚物品分类任务。MNIST数据集由Yann LeCun等人于1998年创建，包含了60000张训练图像和10000张测试图像，每张图像为28x28像素的灰度图。FashionMNIST数据集则由Zalando Research于2017年发布，旨在作为MNIST的替代品，提供更具挑战性的分类任务。这两个数据集在深度学习研究中具有重要地位，尤其是在图像分类和联邦学习算法的评估中。近期，研究人员如Ali Beikmohammadi等人在IEEE Transactions on Big Data上发表的研究中，利用这些数据集评估了多种联邦学习算法的性能，进一步推动了相关领域的发展。

当前挑战

MNIST和FashionMNIST数据集在应用过程中面临的主要挑战包括数据分布的异质性和算法的收敛性问题。在联邦学习场景中，数据通常分布在多个设备或节点上，且这些数据可能具有不同的分布特性（如非独立同分布数据），这增加了模型训练的复杂性。此外，联邦学习算法的收敛性受到数据相似性、通信开销和计算资源的限制，尤其是在数据分布高度异质的情况下，算法的性能可能显著下降。构建这些数据集时，研究人员还需确保数据的多样性和代表性，以应对不同应用场景的需求。这些挑战促使研究者不断优化算法设计，以提升模型在复杂数据环境下的表现。

常用场景

经典使用场景

MNIST和FashionMNIST数据集在深度学习领域中被广泛用于图像分类任务的基准测试。这些数据集因其简单性和广泛的应用背景，常被用于验证和比较不同机器学习算法的性能。特别是在联邦学习（Federated Learning）的研究中，MNIST和FashionMNIST数据集被用来模拟分布式环境下的数据分布和模型训练过程，帮助研究者评估算法在不同数据分区和通信条件下的表现。

解决学术问题

MNIST和FashionMNIST数据集解决了深度学习算法在图像分类任务中的基准测试问题。通过提供标准化的手写数字和时尚物品图像，这些数据集为研究者提供了一个统一的平台，用于比较不同算法的准确性和效率。特别是在联邦学习领域，这些数据集帮助研究者探索在不相似数据分布下的算法收敛性问题，推动了分布式机器学习算法的优化和创新。

实际应用

在实际应用中，MNIST和FashionMNIST数据集被广泛应用于图像识别系统的开发和测试。例如，手写数字识别系统可以用于自动化邮件分拣、银行支票处理等场景，而时尚物品分类系统则可以用于电商平台的商品推荐和库存管理。这些数据集的高质量和广泛适用性使其成为实际应用中不可或缺的工具。

数据集最近研究