notMNIST_large.zip, notMNIST_small.zip

github2018-12-25 更新2024-05-31 收录

下载链接：

https://github.com/Akkireddy1/A-dataset-for-a-more-challenging-Non-MNIST-like-classification-task

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多类别分类数据集，包含英文字母A至J的符号。notMNIST_large.zip是一个大型但未清洗的数据集，包含529,119张图像，而notMNIST_small.zip是一个小型手工清洗的数据集，包含18,726张图像。两个文件都包含28x28灰度图像，按字母组织在目录中。

This is a multi-category classification dataset containing symbols of English letters from A to J. The notMNIST_large.zip is a large but uncleaned dataset comprising 529,119 images, while the notMNIST_small.zip is a smaller, manually cleaned dataset with 18,726 images. Both files contain 28x28 grayscale images, organized by letters in directories.

创建时间：

2018-07-13

原始信息汇总

数据集概述

数据集名称

A-dataset-for-a-more-challenging-Non-MNIST-like-classification-task

数据集描述

这是一个多类别分类数据集，用于从图像中分类英文字母A至J的符号。该数据集是MNIST数据集的一个更具挑战性的版本，广泛用于Udacity深度学习课程，并可在Tensorflow Github仓库的示例中找到。

数据集内容

notMNIST_large.zip：包含529,119张图像，是一个大型但未清洗的数据集，标签错误率约为6.5%。
notMNIST_small.zip：包含18,726张图像，是一个小型手工清洗的数据集，标签错误率约为0.5%。

数据集结构

每个文件包含28x28像素的灰度图像，按字母组织在不同的目录中。

数据集来源

由Yaroslav Bulatov组装，可从其博客获取。

致谢

感谢Yaroslav Bulatov组装此数据集。

搜集汇总

数据集介绍

构建方式

notMNIST数据集的构建，旨在提供一个较MNIST更具挑战性的图像分类任务。该数据集包含了英文字母A至J的图像，分为大版本notMNIST_large.zip和小版本notMNIST_small.zip。大版本包含529,119张图像，小版本则包含18,726张经过人工清理的图像。这些图像均为28x28像素的灰度图像，并按照字母类别组织在相应的目录中。构建过程中，数据集的汇编者Yaroslav Bulatov倾注了大量心血，确保了数据的多样性和分类的难度。

特点

该数据集的特点在于其挑战性，它模拟了现实世界中图像分类的复杂性。大版本数据集因含有杂质而更具挑战，其标签错误率约为6.5%，而小版本经过人工清理，标签错误率降低至0.5%。这种设计使得该数据集适用于深度学习模型的训练与评估，特别是在模型泛化能力的测试上。此外，该数据集不存在已知的使用许可限制，便于社区和研究人员广泛使用。

使用方法

使用该数据集时，研究者可以依据需求选择大版本或小版本。大版本适用于测试模型的鲁棒性和泛化能力，小版本则更适合于快速原型设计和模型调试。数据集的组织结构便于直接集成到Tensorflow等深度学习框架中。用户需自行从Tensorflow的GitHub仓库或Yaroslav Bulatov的博客下载数据集，并根据需求解压和使用相应的图像数据。

背景与挑战

背景概述

notMNIST数据集是机器学习领域内一个颇具知名度的图像分类问题，它是对传统MNIST数据集的一种拓展和升级。该数据集旨在提供一个更具挑战性的分类任务，即从图像中区分英文字母A至J。它由Yaroslav Bulatov汇编而成，并被广泛应用于Udacity深度学习课程中，同时可在Tensorflow的GitHub仓库中找到。此数据集的创建，不仅丰富了图像分类领域的研究素材，也为深度学习算法的训练与验证提供了新的基准。notMNIST_large.zip和notMNIST_small.zip分别包含529,119张和18,726张28x28灰度图像，其中大型数据集存在约6.5%的标签错误率，而小型手动清理数据集的标签错误率则为0.5%。

当前挑战

该数据集在研究领域中提出的挑战主要涉及两个方面：一是分类任务的挑战，即如何准确区分形状相似的英文字母；二是数据集构建过程中的挑战，包括图像质量的不均匀性以及标签错误的问题。对于分类任务而言，由于英文字母之间存在视觉上的相似性，算法需要能够有效学习并区分这些细微的差异。而在数据集构建方面，大型数据集中的杂质和错误标签对算法的训练和评估构成了额外的障碍，这要求研究人员必须采取有效措施进行数据清洗和预处理。

常用场景

经典使用场景

在深度学习与机器视觉研究领域，notMNIST数据集因其与MNIST数据集的相似结构却具备更高的分类难度，而被视为经典的使用场景。该数据集包含英文字母A至J的图像，旨在训练模型以区分这些字母，常用于验证模型的泛化能力。

实际应用

实际应用中，notMNIST数据集可用于图像识别系统中的预处理步骤，以提升系统对真实场景中手写字母的识别准确度。此外，该数据集亦可用于教育领域，作为深度学习课程中图像分类的实践教材。

衍生相关工作

基于notMNIST数据集，学术界衍生出一系列相关研究工作，包括但不限于对数据集进行增强、改进分类算法、以及探索错误标签对模型训练的影响等，这些研究进一步推动了图像识别技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集