five

EMNIST-Balanced|手写文字识别数据集|图像识别数据集

收藏
github2024-03-20 更新2024-05-31 收录
手写文字识别
图像识别
下载链接:
https://github.com/christianversloot/extra_keras_datasets
下载链接
链接失效反馈
资源简介:
Extended MNIST (EMNIST)包含数字以及大小写手写英文字母。`EMNIST-Balanced`包含47个平衡类别中的131,600个字符。

扩展的MNIST(EMNIST)数据集涵盖了数字以及大小写手写英文字母。其中,EMNIST-Balanced数据集包含47个均衡类别的131,600个字符。
创建时间:
2020-01-09
原始信息汇总

数据集概述

EMNIST系列

  • EMNIST-Balanced: 包含131,600个字符,分为47个平衡类别。
  • EMNIST-ByClass: 包含814,255个字符,分为62个不平衡类别。
  • EMNIST-ByMerge: 包含814,255个字符,分为47个不平衡类别。
  • EMNIST-Digits: 包含280,000个字符,分为10个平衡类别(仅数字)。
  • EMNIST-Letters: 包含145,600个字符,分为26个平衡类别(仅字母)。
  • EMNIST-MNIST: 包含70,000个字符,分为10个平衡类别(等同于keras.datasets.mnist)。

KMNIST系列

  • KMNIST-KMNIST: 包含70,000个28x28灰度图像,为日本Kuzushiji字符。
  • KMNIST-K49: 包含270,912个图像,分为49个类别。

SVHN系列

  • SVHN-Normal: 包含73,257个训练图像和26,032个测试图像,非商业用途。
  • SVHN-Extra: 包含604,388个训练图像和26,032个测试图像,非商业用途。

其他数据集

  • STL-10: 包含5,000个训练图像和8,000个测试图像,共10个类别。
  • Iris: 包含150个实例,分为3个类别,每个类别50个实例。
  • Wine Quality dataset: 包含葡萄酒的物理化学测试数据,用于模型葡萄酒质量。
  • USPS Handwritten Digits Dataset: 包含数千个16x16灰度图像的手写数字。

数据集使用方法

依赖

  • 确保安装了TensorFlow。

安装步骤

  • 使用PIP安装:pip install extra-keras-datasets

数据集加载示例

EMNIST-Balanced

python from extra_keras_datasets import emnist (input_train, target_train), (input_test, target_test) = emnist.load_data(type=balanced)

KMNIST-KMNIST

python from extra_keras_datasets import kmnist (input_train, target_train), (input_test, target_test) = kmnist.load_data(type=kmnist)

SVHN-Normal

python from extra_keras_datasets import svhn (input_train, target_train), (input_test, target_test) = svhn.load_data(type=normal)

STL-10

python from extra_keras_datasets import stl10 (input_train, target_train), (input_test, target_test) = stl10.load_data()

Iris

python from extra_keras_datasets import iris (input_train, target_train), (input_test, target_test) = iris.load_data(test_split=0.2)

Wine Quality dataset

python from extra_keras_datasets import wine_quality (input_train, target_train), (input_test, target_test) = wine_quality.load_data(which_data=both, test_split=0.2, shuffle=True)

USPS Handwritten Digits Dataset

python from extra_keras_datasets import usps (input_train, target_train), (input_test, target_test) = usps.load_data()

AI搜集汇总
数据集介绍
main_image_url
构建方式
EMNIST-Balanced数据集是Extended MNIST(EMNIST)的一个子集,专注于手写数字、大写和小写字母的识别。该数据集通过平衡类别分布的方式构建,确保每个类别的样本数量相对均衡。具体而言,EMNIST-Balanced包含了131,600个字符,分布在47个类别中。这些数据来源于美国国家标准与技术研究院(NIST)的手写字符数据库,经过预处理和标准化,以适应机器学习模型的需求。
特点
EMNIST-Balanced数据集的一个显著特点是其类别平衡性,每个类别的样本数量相近,这有助于减少模型训练中的类别偏差问题。此外,数据集涵盖了广泛的字符类别,包括数字、大写字母和小写字母,为多类别分类任务提供了丰富的训练资源。数据以28x28像素的灰度图像形式呈现,便于直接用于深度学习模型的输入。
使用方法
使用EMNIST-Balanced数据集时,可以通过`extra_keras_datasets`模块轻松加载数据。首先,确保已安装TensorFlow和`extra_keras_datasets`模块。然后,使用`emnist.load_data(type='balanced')`函数加载数据集,返回的训练和测试数据可直接用于模型训练和评估。该数据集特别适合用于手写字符识别、多类别分类等任务,为研究人员和开发者提供了一个标准化的基准数据集。
背景与挑战
背景概述
EMNIST-Balanced数据集是Extended MNIST(EMNIST)系列中的一个重要组成部分,由Cohen等研究人员于2017年提出。该数据集扩展了经典的MNIST数据集,不仅包含手写数字,还涵盖了大小写字母,共计47个平衡类别,包含131,600个字符。EMNIST-Balanced的创建旨在为手写字符识别研究提供更丰富的数据支持,特别是在多类别分类任务中。其影响力广泛,推动了手写字符识别、光学字符识别(OCR)以及深度学习模型在相关领域的应用。
当前挑战
EMNIST-Balanced数据集在解决手写字符识别问题时面临多重挑战。首先,手写字符的多样性和复杂性使得模型难以准确区分相似字符,例如大小写字母之间的细微差异。其次,数据集的平衡性虽然有助于减少类别偏差,但也可能导致模型在训练过程中忽略少数类别的特征。在构建过程中,数据采集和标注的准确性是关键挑战,尤其是确保不同书写风格和质量的字符能够被正确分类。此外,数据预处理和标准化也是构建高质量数据集的重要环节,需要克服噪声和变形等问题。
常用场景
经典使用场景
EMNIST-Balanced数据集在深度学习领域中被广泛用于手写字符识别任务。其包含了131,600个字符,涵盖了47个平衡类别,包括数字、大写字母和小写字母。该数据集常被用于训练和评估卷积神经网络(CNN)等深度学习模型,特别是在手写字符分类和识别的研究中,提供了丰富的样本和多样化的类别分布。
衍生相关工作
EMNIST-Balanced数据集衍生了许多经典的研究工作,特别是在手写字符识别和深度学习领域。例如,基于该数据集的研究提出了多种改进的卷积神经网络架构,如ResNet和DenseNet,这些架构在字符分类任务中表现出色。此外,该数据集还被用于研究迁移学习和数据增强技术,进一步提升了模型的泛化能力和鲁棒性。
数据集最近研究
最新研究方向
在深度学习领域,EMNIST-Balanced数据集因其包含的131,600个字符和47个平衡类别,成为手写字符识别研究的重要资源。近年来,研究者们利用该数据集探索了多种深度学习模型,如卷积神经网络(CNN)和循环神经网络(RNN),以提升字符识别的准确性和鲁棒性。特别是在多语言和多字符集识别任务中,EMNIST-Balanced的广泛应用推动了跨文化手写字符识别技术的发展。此外,该数据集还被用于研究数据增强技术和迁移学习方法,以应对小样本学习和模型泛化问题。这些研究不仅提升了手写字符识别的技术水平,也为相关应用如自动化文档处理和智能手写输入系统提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作