EMNIST-Balanced|手写文字识别数据集|图像识别数据集

github2024-03-20 更新2024-05-31 收录

手写文字识别

图像识别

下载链接：

https://github.com/christianversloot/extra_keras_datasets

下载链接

链接失效反馈

资源简介：

Extended MNIST (EMNIST)包含数字以及大小写手写英文字母。`EMNIST-Balanced`包含47个平衡类别中的131,600个字符。

扩展的MNIST（EMNIST）数据集涵盖了数字以及大小写手写英文字母。其中，EMNIST-Balanced数据集包含47个均衡类别的131,600个字符。

创建时间：

2020-01-09

原始信息汇总

数据集概述

EMNIST系列

EMNIST-Balanced: 包含131,600个字符，分为47个平衡类别。
EMNIST-ByClass: 包含814,255个字符，分为62个不平衡类别。
EMNIST-ByMerge: 包含814,255个字符，分为47个不平衡类别。
EMNIST-Digits: 包含280,000个字符，分为10个平衡类别（仅数字）。
EMNIST-Letters: 包含145,600个字符，分为26个平衡类别（仅字母）。
EMNIST-MNIST: 包含70,000个字符，分为10个平衡类别（等同于keras.datasets.mnist）。

KMNIST系列

KMNIST-KMNIST: 包含70,000个28x28灰度图像，为日本Kuzushiji字符。
KMNIST-K49: 包含270,912个图像，分为49个类别。

SVHN系列

SVHN-Normal: 包含73,257个训练图像和26,032个测试图像，非商业用途。
SVHN-Extra: 包含604,388个训练图像和26,032个测试图像，非商业用途。

其他数据集

STL-10: 包含5,000个训练图像和8,000个测试图像，共10个类别。
Iris: 包含150个实例，分为3个类别，每个类别50个实例。
Wine Quality dataset: 包含葡萄酒的物理化学测试数据，用于模型葡萄酒质量。
USPS Handwritten Digits Dataset: 包含数千个16x16灰度图像的手写数字。

数据集使用方法

依赖

确保安装了TensorFlow。

安装步骤

使用PIP安装：pip install extra-keras-datasets。

数据集加载示例

EMNIST-Balanced

python from extra_keras_datasets import emnist (input_train, target_train), (input_test, target_test) = emnist.load_data(type=balanced)

KMNIST-KMNIST

python from extra_keras_datasets import kmnist (input_train, target_train), (input_test, target_test) = kmnist.load_data(type=kmnist)

SVHN-Normal

python from extra_keras_datasets import svhn (input_train, target_train), (input_test, target_test) = svhn.load_data(type=normal)

STL-10

python from extra_keras_datasets import stl10 (input_train, target_train), (input_test, target_test) = stl10.load_data()

Iris

python from extra_keras_datasets import iris (input_train, target_train), (input_test, target_test) = iris.load_data(test_split=0.2)

Wine Quality dataset

python from extra_keras_datasets import wine_quality (input_train, target_train), (input_test, target_test) = wine_quality.load_data(which_data=both, test_split=0.2, shuffle=True)

USPS Handwritten Digits Dataset

python from extra_keras_datasets import usps (input_train, target_train), (input_test, target_test) = usps.load_data()

AI搜集汇总

数据集介绍

构建方式

EMNIST-Balanced数据集是Extended MNIST（EMNIST）的一个子集，专注于手写数字、大写和小写字母的识别。该数据集通过平衡类别分布的方式构建，确保每个类别的样本数量相对均衡。具体而言，EMNIST-Balanced包含了131,600个字符，分布在47个类别中。这些数据来源于美国国家标准与技术研究院（NIST）的手写字符数据库，经过预处理和标准化，以适应机器学习模型的需求。

特点

EMNIST-Balanced数据集的一个显著特点是其类别平衡性，每个类别的样本数量相近，这有助于减少模型训练中的类别偏差问题。此外，数据集涵盖了广泛的字符类别，包括数字、大写字母和小写字母，为多类别分类任务提供了丰富的训练资源。数据以28x28像素的灰度图像形式呈现，便于直接用于深度学习模型的输入。

使用方法

使用EMNIST-Balanced数据集时，可以通过`extra_keras_datasets`模块轻松加载数据。首先，确保已安装TensorFlow和`extra_keras_datasets`模块。然后，使用`emnist.load_data(type='balanced')`函数加载数据集，返回的训练和测试数据可直接用于模型训练和评估。该数据集特别适合用于手写字符识别、多类别分类等任务，为研究人员和开发者提供了一个标准化的基准数据集。

背景与挑战

背景概述

EMNIST-Balanced数据集是Extended MNIST（EMNIST）系列中的一个重要组成部分，由Cohen等研究人员于2017年提出。该数据集扩展了经典的MNIST数据集，不仅包含手写数字，还涵盖了大小写字母，共计47个平衡类别，包含131,600个字符。EMNIST-Balanced的创建旨在为手写字符识别研究提供更丰富的数据支持，特别是在多类别分类任务中。其影响力广泛，推动了手写字符识别、光学字符识别（OCR）以及深度学习模型在相关领域的应用。

当前挑战

EMNIST-Balanced数据集在解决手写字符识别问题时面临多重挑战。首先，手写字符的多样性和复杂性使得模型难以准确区分相似字符，例如大小写字母之间的细微差异。其次，数据集的平衡性虽然有助于减少类别偏差，但也可能导致模型在训练过程中忽略少数类别的特征。在构建过程中，数据采集和标注的准确性是关键挑战，尤其是确保不同书写风格和质量的字符能够被正确分类。此外，数据预处理和标准化也是构建高质量数据集的重要环节，需要克服噪声和变形等问题。

常用场景

经典使用场景

EMNIST-Balanced数据集在深度学习领域中被广泛用于手写字符识别任务。其包含了131,600个字符，涵盖了47个平衡类别，包括数字、大写字母和小写字母。该数据集常被用于训练和评估卷积神经网络（CNN）等深度学习模型，特别是在手写字符分类和识别的研究中，提供了丰富的样本和多样化的类别分布。

衍生相关工作

EMNIST-Balanced数据集衍生了许多经典的研究工作，特别是在手写字符识别和深度学习领域。例如，基于该数据集的研究提出了多种改进的卷积神经网络架构，如ResNet和DenseNet，这些架构在字符分类任务中表现出色。此外，该数据集还被用于研究迁移学习和数据增强技术，进一步提升了模型的泛化能力和鲁棒性。

数据集最近研究