FEMNIST

github2022-07-07 更新2024-05-31 收录

下载链接：

https://github.com/XLab101-FL/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

FEMNIST是一个图像分类数据集，包含62个类别（10个数字，26个小写字母，26个大写字母），图像大小为28x28像素（可选地转换为128x128像素），涉及3500个用户。该数据集通过分割EMNIST数据集，使得每个用户的数据仅包含由单个作者书写的字符。

FEMNIST is an image classification dataset comprising 62 categories (10 digits, 26 lowercase letters, and 26 uppercase letters), with images sized at 28x28 pixels (optionally resizable to 128x128 pixels), involving 3,500 users. This dataset is derived by partitioning the EMNIST dataset, ensuring that each user's data exclusively contains characters written by a single author.

创建时间：

2020-11-17

原始信息汇总

数据集概述

1. FEMNIST

类型: 图像数据集
详细信息: 包含62个类别（10个数字，26个小写字母，26个大写字母），图像尺寸为28x28像素，可选择调整为128x128像素，共3500个用户。
任务: 图像分类

2. Sentiment140

类型: 文本数据集，包含推文
详细信息: 共660120个用户
任务: 情感分析
数据格式: 包含训练集和测试集，数据以JSON格式存储，每个用户的数据包括推文内容和情感标签。

3. Shakespeare

类型: 文本数据集，包含莎士比亚对话
详细信息: 1129个用户（减少到660个用户）
任务: 下一个字符预测
数据格式: 文本格式，包含对话内容。

4. Celeba

类型: 图像数据集
详细信息: 9343个用户（排除少于5张图片的名人）
任务: 图像分类（微笑与非微笑）

5. Synthetic Dataset

类型: 合成数据集
详细信息: 用户可自定义设备数量、类别数量和维度等
任务: 分类

6. Reddit

类型: 文本数据集，包含Reddit评论
详细信息: 1,660,820个用户，共56,587,343条评论
任务: 下一个词预测

7. CIFAR 10 / CIFAR 100

类型: 图像分类数据集
详细信息: 包含60,000张32x32像素的彩色图像，分布在10和100个类别中，分别有50,000/10,000的训练/测试分割
任务: 图像分类

8. FedVision - Street Dataset

类型: 真实世界物体检测数据集
详细信息: 包含5,20个设备，956个样本，7个类别
任务: 物体检测
数据格式: 包含图像数据和训练标签，以JSON格式存储

9. EMNIST

类型: 扩展的MNIST数据集，包含英文字母和数字
详细信息: 分为6类，包括By_Class、By_Merge、Balanced、Digits、Letters和MNIST
任务: 分类

10. MovieLens

类型: 结构化数据集
详细信息: 包含用户对视频的评分和视频属性，评分分为5个等级
任务: 推荐系统
数据格式: 包含ratings.dat、users.dat和movies.dat

11. Credit

类型: 结构化数据集
详细信息: 包含用户属性，如性别、教育程度等，Credit 1包含150000个样本10个属性，Credit 2包含30000个样本25个属性
任务: 分类（预测用户是否会还款违约）

12. ModelNet

类型: 图像分类数据集
详细信息: 包含来自40个类别的2311个3D模型的各种视角的视图
任务: 图像分类
数据处理: 需要通过开源软件blender将CAD模型转换为图像

13. PersonaChat

类型: 聊天数据集
详细信息: 自然非i.i.d.分区，基于分配的个性，分为17,568个客户端

14. KWS

类型: 语音命令数据集
任务: 有限词汇的语音识别

15. Flickr

类型: 个性化图像美学数据集
任务: 个性化图像分类

搜集汇总

数据集介绍

构建方式

FEMNIST数据集通过将EMNIST数据集进行分区构建而成，每个客户端包含由单一作者书写的字符图像。具体而言，FEMNIST数据集从EMNIST数据集中提取了62个类别（包括10个数字、26个小写字母和26个大写字母），并将这些图像分配给3500个用户，每个用户的图像数据均来自同一作者。这种构建方式确保了数据在用户间的非独立同分布特性，为联邦学习提供了理想的实验环境。

使用方法

使用FEMNIST数据集时，用户首先需要根据任务需求选择合适的图像分辨率。随后，可以按照联邦学习的框架，将数据集分配给不同的客户端进行本地模型训练。在训练过程中，各客户端的数据不会被集中存储，而是保持本地化，仅在必要时进行模型参数的聚合与更新。这种使用方式不仅保护了用户隐私，还模拟了真实世界中数据分散的场景，适用于多种图像分类任务的研究与应用。

背景与挑战

背景概述

FEMNIST数据集，作为联邦学习领域的一个重要组成部分，由Caldas等人在2018年提出，其核心在于将EMNIST数据集（由Cohen等人在2017年创建）进行分割，使得每个客户端仅包含由单一用户书写的字符图像。这一设计旨在模拟真实世界中数据分布的异质性，从而推动联邦学习在图像分类任务中的应用。FEMNIST数据集包含62个类别，涵盖了10个数字、26个小写字母和26个大写字母，图像尺寸为28x28像素，共有3500个用户。该数据集的创建不仅为研究者提供了一个标准化的测试平台，还显著推动了联邦学习在隐私保护和数据分布不均问题上的研究进展。

当前挑战

FEMNIST数据集在构建过程中面临的主要挑战包括数据异质性和隐私保护。首先，由于每个客户端仅包含单一用户的数据，数据分布的异质性显著增加，这要求模型必须具备强大的泛化能力以适应不同的数据分布。其次，联邦学习的核心在于保护用户隐私，如何在数据不集中存储的前提下进行有效的模型训练，是一个亟待解决的问题。此外，图像数据的处理和分类本身也具有一定的复杂性，尤其是在处理手写字符时，模型的识别精度需要达到较高水平。这些挑战共同构成了FEMNIST数据集在实际应用中的主要障碍。

常用场景

经典使用场景

FEMNIST数据集在图像分类领域中具有经典的使用场景，主要用于训练和评估联邦学习模型。由于其包含62个不同的类别（包括数字和字母），且每个用户的数据仅由单一作者书写，这使得FEMNIST成为研究非独立同分布（non-IID）数据下联邦学习性能的理想选择。通过将数据集划分为多个客户端，每个客户端代表一个用户，研究人员可以模拟真实世界中的数据分布，从而评估和优化联邦学习算法在处理个性化数据时的表现。

解决学术问题

FEMNIST数据集解决了联邦学习中的一个关键学术问题，即如何在数据非独立同分布的情况下有效训练模型。传统的集中式学习方法假设所有数据都是独立同分布的，但在实际应用中，不同用户的数据往往具有高度的异质性。FEMNIST通过模拟这种异质性，帮助研究人员开发和验证能够处理非IID数据的联邦学习算法，从而推动了该领域的发展。此外，FEMNIST还为研究个性化学习提供了数据支持，使得模型能够在保持全局性能的同时，更好地适应个体用户的特定需求。

实际应用

在实际应用中，FEMNIST数据集主要用于开发和测试联邦学习系统，特别是在需要保护用户隐私和数据安全的场景中。例如，在手写识别系统中，用户的书写风格各异，且数据通常分布在不同的设备上。通过使用FEMNIST数据集，开发者可以训练一个能够在本地设备上运行并保护用户隐私的联邦学习模型。此外，FEMNIST还可用于教育领域的个性化学习系统，通过分析学生的书写数据，提供个性化的学习反馈和建议。

数据集最近研究