five

EMNIST-Balanced|手写文字识别数据集|图像识别数据集

收藏
github2024-03-20 更新2024-05-31 收录
手写文字识别
图像识别
下载链接:
https://github.com/christianversloot/extra_keras_datasets
下载链接
链接失效反馈
资源简介:
Extended MNIST (EMNIST)包含数字以及大小写手写英文字母。`EMNIST-Balanced`包含47个平衡类别中的131,600个字符。

扩展的MNIST(EMNIST)数据集涵盖了数字以及大小写手写英文字母。其中,EMNIST-Balanced数据集包含47个均衡类别的131,600个字符。
创建时间:
2020-01-09
原始信息汇总

数据集概述

EMNIST系列

  • EMNIST-Balanced: 包含131,600个字符,分为47个平衡类别。
  • EMNIST-ByClass: 包含814,255个字符,分为62个不平衡类别。
  • EMNIST-ByMerge: 包含814,255个字符,分为47个不平衡类别。
  • EMNIST-Digits: 包含280,000个字符,分为10个平衡类别(仅数字)。
  • EMNIST-Letters: 包含145,600个字符,分为26个平衡类别(仅字母)。
  • EMNIST-MNIST: 包含70,000个字符,分为10个平衡类别(等同于keras.datasets.mnist)。

KMNIST系列

  • KMNIST-KMNIST: 包含70,000个28x28灰度图像,为日本Kuzushiji字符。
  • KMNIST-K49: 包含270,912个图像,分为49个类别。

SVHN系列

  • SVHN-Normal: 包含73,257个训练图像和26,032个测试图像,非商业用途。
  • SVHN-Extra: 包含604,388个训练图像和26,032个测试图像,非商业用途。

其他数据集

  • STL-10: 包含5,000个训练图像和8,000个测试图像,共10个类别。
  • Iris: 包含150个实例,分为3个类别,每个类别50个实例。
  • Wine Quality dataset: 包含葡萄酒的物理化学测试数据,用于模型葡萄酒质量。
  • USPS Handwritten Digits Dataset: 包含数千个16x16灰度图像的手写数字。

数据集使用方法

依赖

  • 确保安装了TensorFlow。

安装步骤

  • 使用PIP安装:pip install extra-keras-datasets

数据集加载示例

EMNIST-Balanced

python from extra_keras_datasets import emnist (input_train, target_train), (input_test, target_test) = emnist.load_data(type=balanced)

KMNIST-KMNIST

python from extra_keras_datasets import kmnist (input_train, target_train), (input_test, target_test) = kmnist.load_data(type=kmnist)

SVHN-Normal

python from extra_keras_datasets import svhn (input_train, target_train), (input_test, target_test) = svhn.load_data(type=normal)

STL-10

python from extra_keras_datasets import stl10 (input_train, target_train), (input_test, target_test) = stl10.load_data()

Iris

python from extra_keras_datasets import iris (input_train, target_train), (input_test, target_test) = iris.load_data(test_split=0.2)

Wine Quality dataset

python from extra_keras_datasets import wine_quality (input_train, target_train), (input_test, target_test) = wine_quality.load_data(which_data=both, test_split=0.2, shuffle=True)

USPS Handwritten Digits Dataset

python from extra_keras_datasets import usps (input_train, target_train), (input_test, target_test) = usps.load_data()

AI搜集汇总
数据集介绍
main_image_url
构建方式
EMNIST-Balanced数据集是Extended MNIST(EMNIST)的一个子集,专注于手写数字、大写和小写字母的识别。该数据集通过平衡类别分布的方式构建,确保每个类别的样本数量相对均衡。具体而言,EMNIST-Balanced包含了131,600个字符,分布在47个类别中。这些数据来源于美国国家标准与技术研究院(NIST)的手写字符数据库,经过预处理和标准化,以适应机器学习模型的需求。
特点
EMNIST-Balanced数据集的一个显著特点是其类别平衡性,每个类别的样本数量相近,这有助于减少模型训练中的类别偏差问题。此外,数据集涵盖了广泛的字符类别,包括数字、大写字母和小写字母,为多类别分类任务提供了丰富的训练资源。数据以28x28像素的灰度图像形式呈现,便于直接用于深度学习模型的输入。
使用方法
使用EMNIST-Balanced数据集时,可以通过`extra_keras_datasets`模块轻松加载数据。首先,确保已安装TensorFlow和`extra_keras_datasets`模块。然后,使用`emnist.load_data(type='balanced')`函数加载数据集,返回的训练和测试数据可直接用于模型训练和评估。该数据集特别适合用于手写字符识别、多类别分类等任务,为研究人员和开发者提供了一个标准化的基准数据集。
背景与挑战
背景概述
EMNIST-Balanced数据集是Extended MNIST(EMNIST)系列中的一个重要组成部分,由Cohen等研究人员于2017年提出。该数据集扩展了经典的MNIST数据集,不仅包含手写数字,还涵盖了大小写字母,共计47个平衡类别,包含131,600个字符。EMNIST-Balanced的创建旨在为手写字符识别研究提供更丰富的数据支持,特别是在多类别分类任务中。其影响力广泛,推动了手写字符识别、光学字符识别(OCR)以及深度学习模型在相关领域的应用。
当前挑战
EMNIST-Balanced数据集在解决手写字符识别问题时面临多重挑战。首先,手写字符的多样性和复杂性使得模型难以准确区分相似字符,例如大小写字母之间的细微差异。其次,数据集的平衡性虽然有助于减少类别偏差,但也可能导致模型在训练过程中忽略少数类别的特征。在构建过程中,数据采集和标注的准确性是关键挑战,尤其是确保不同书写风格和质量的字符能够被正确分类。此外,数据预处理和标准化也是构建高质量数据集的重要环节,需要克服噪声和变形等问题。
常用场景
经典使用场景
EMNIST-Balanced数据集在深度学习领域中被广泛用于手写字符识别任务。其包含了131,600个字符,涵盖了47个平衡类别,包括数字、大写字母和小写字母。该数据集常被用于训练和评估卷积神经网络(CNN)等深度学习模型,特别是在手写字符分类和识别的研究中,提供了丰富的样本和多样化的类别分布。
衍生相关工作
EMNIST-Balanced数据集衍生了许多经典的研究工作,特别是在手写字符识别和深度学习领域。例如,基于该数据集的研究提出了多种改进的卷积神经网络架构,如ResNet和DenseNet,这些架构在字符分类任务中表现出色。此外,该数据集还被用于研究迁移学习和数据增强技术,进一步提升了模型的泛化能力和鲁棒性。
数据集最近研究
最新研究方向
在深度学习领域,EMNIST-Balanced数据集因其包含的131,600个字符和47个平衡类别,成为手写字符识别研究的重要资源。近年来,研究者们利用该数据集探索了多种深度学习模型,如卷积神经网络(CNN)和循环神经网络(RNN),以提升字符识别的准确性和鲁棒性。特别是在多语言和多字符集识别任务中,EMNIST-Balanced的广泛应用推动了跨文化手写字符识别技术的发展。此外,该数据集还被用于研究数据增强技术和迁移学习方法,以应对小样本学习和模型泛化问题。这些研究不仅提升了手写字符识别的技术水平,也为相关应用如自动化文档处理和智能手写输入系统提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录