EMNIST (Extended MNIST)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/EMNIST
下载链接
链接失效反馈官方服务:
资源简介:
EMNIST 数据集是一组源自 NIST 特殊数据库 19 (https://www.nist.gov/srd/nist-special-database-19) 并转换为 28x28 像素图像格式和数据集结构的手写字符数字直接匹配 MNIST 数据集(http://yann.lecun.com/exdb/mnist/),该数据集中提供了六种不同的拆分。下面提供了数据集的简短摘要:
EMNIST ByClass:814,255 个字符。 62个不平衡类。 EMNIST ByMerge:814,255 个字符。 47个不平衡类。 EMNIST 平衡:131,600 个字符。 47个平衡班。 EMNIST 信件:145,600 个字符。 26个平衡的班级。 EMNIST 数字:280,000 个字符。 10个平衡类。 EMNIST MNIST:70,000 个字符。 10个平衡类。
NIST 特殊数据库 19 的完整补充可在 ByClass 和 ByMerge 拆分中获得。 EMNIST 平衡数据集包含一组字符,每个类别的样本数相同。 EMNIST Letters 数据集将一组平衡的大写和小写字母合并为一个 26 类任务。 EMNIST Digits 和 EMNIST MNIST 数据集提供了与原始 MNIST 数据集直接兼容的平衡手写数字数据集。
The EMNIST dataset is a collection of handwritten character and digit samples derived from NIST Special Database 19 (https://www.nist.gov/srd/nist-special-database-19), converted into 28×28 pixel image format with a dataset structure directly compatible with the MNIST dataset (http://yann.lecun.com/exdb/mnist/). Six distinct data splits are provided in this dataset.
A brief summary of each split is provided below:
EMNIST ByClass: 814,255 character samples, with 62 imbalanced classes.
EMNIST ByMerge: 814,255 character samples, with 47 imbalanced classes.
EMNIST Balanced: 131,600 character samples, with 47 balanced classes.
EMNIST Letters: 145,600 character samples, with 26 balanced classes.
EMNIST Digits: 280,000 character samples, with 10 balanced classes.
EMNIST MNIST: 70,000 character samples, with 10 balanced classes.
The full complement of NIST Special Database 19 is available in the ByClass and ByMerge splits. The EMNIST Balanced dataset contains a set of characters with an equal number of samples per class. The EMNIST Letters dataset merges balanced sets of uppercase and lowercase letters into a 26-class classification task. The EMNIST Digits and EMNIST MNIST datasets provide balanced handwritten digit datasets that are directly compatible with the original MNIST dataset.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
EMNIST数据集是MNIST数据集的扩展,包含手写字符和数字,图像格式为28x28像素,与MNIST直接兼容。它提供了六种不同的拆分方式,包括ByClass、ByMerge、Balanced、Letters、Digits和MNIST,覆盖从62个不平衡类到10个平衡类的多种任务,适用于图像分类和聚类等计算机视觉研究。数据集源自NIST特殊数据库19,发布于2017年,由西悉尼大学发布,旨在支持手写字符识别领域的实验和模型开发。
以上内容由遇见数据集搜集并总结生成



