mnist

github2020-02-19 更新2024-05-31 收录

下载链接：

https://github.com/lgeiger/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MNIST数据库包含了手写数字的数据集。

The MNIST database contains a dataset of handwritten digits.

创建时间：

2019-02-16

原始信息汇总

数据集概述

TensorFlow Datasets 提供了多种公共数据集，这些数据集可以作为 tf.data.Dataset 使用。

数据集列表

数据集列表可通过此链接查看。

数据集使用示例

数据集可以通过 tfds.load 函数加载，例如加载 MNIST 数据集的代码如下： python import tensorflow_datasets as tfds ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"])

数据集构建器 (`DatasetBuilder`)

所有数据集都实现为 DatasetBuilder 的子类，可以通过 tfds.builder 获取数据集构建器，例如： python mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() dataset = mnist_builder.as_dataset(split=tfds.Split.TRAIN)

数据集信息 (`DatasetInfo`)

每个数据集都有一个 DatasetInfo 对象，提供数据集的详细信息，包括名称、版本、描述、URL、特征、总样本数、分割信息、监督键和引用。例如，MNIST 数据集的描述如下： python tfds.core.DatasetInfo( name=mnist, version=1.0.0, description=The MNIST database of handwritten digits., urls=[uhttp://yann.lecun.com/exdb/mnist/], features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10) }, total_num_examples=70000, splits={ utest: <tfds.core.SplitInfo num_examples=10000>, utrain: <tfds.core.SplitInfo num_examples=60000> }, supervised_keys=(uimage, ulabel), citation=""" @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann. lecun. com/exdb/mnist}, volume={2}, year={2010} } """, )

NumPy 使用

用户可以通过 tfds.as_numpy 将 tf.data.Dataset 转换为 NumPy 数组，以便在程序中使用。例如： python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

数据集请求

用户可以通过 GitHub 问题请求新数据集。

免责声明

TensorFlow Datasets 仅提供数据集下载和准备功能，用户需自行确保使用数据集的合法性。

搜集汇总

数据集介绍

构建方式

MNIST数据集是通过对 handwritten digits 进行扫描和数字化构建而成，包含了一系列手写数字的图像。该数据集由 Yann LeCun 等人整理，并被广泛用于图像识别和机器学习领域作为基准数据集。数据集的构建过程中，将图像和对应的标签信息以特定的格式组织，便于机器学习算法的训练和测试。

使用方法

使用MNIST数据集，首先需要通过TensorFlow Datasets库进行安装和导入。利用tfds.load函数可以方便地加载训练和测试数据集，并支持Eager和Graph两种执行模式。用户可以通过调整shuffle、batch和prefetch等参数优化数据输入管道，同时提供了NumPy接口以满足不同用户的需求。

背景与挑战

背景概述

MNIST数据集，全称为Modified National Institute of Standards and Technology database，是机器学习和深度学习领域最著名的手写数字识别数据集。该数据集创建于2010年，由Yann LeCun、Corinna Cortes和CJ Burges等研究人员提出，旨在为图像识别领域提供标准化的测试平台。MNIST包含了70000个灰度图像，分为训练集和测试集，其中训练集60000个图像，测试集10000个图像。每个图像的尺寸为28x28像素。MNIST数据集对深度学习和模式识别领域产生了深远的影响，成为评估和比较不同图像识别算法性能的重要基准。

当前挑战

尽管MNIST数据集在图像识别领域具有重要的地位，但在实际应用中，该数据集也面临一些挑战。首先，MNIST的图像过于规范，与现实场景中手写数字的多样性存在较大差距，导致模型在真实场景中的泛化能力有限。其次，数据集构建过程中，如何确保图像的标注质量和一致性，避免引入人为错误，也是一项关键挑战。此外，随着深度学习技术的不断发展，对大量数据的需求日益增长，MNIST数据集的规模已无法满足一些复杂任务的需求。

常用场景

经典使用场景

MNIST数据集，作为手写数字识别的基准数据集，其经典使用场景在于训练和评估机器学习模型对灰度图像中手写数字的识别能力。该数据集包含了60000个训练样本和10000个测试样本，每个样本都是28x28像素的图像，对应于0到9之间的一个数字。研究者通常利用该数据集进行模型的训练、验证和测试，以评估模型在图像分类任务上的性能。

解决学术问题

MNIST数据集解决了图像识别领域中的一个基础问题，即为机器学习模型提供了一个标准化的测试平台，使得研究者能够在相同的数据集上比较不同算法的性能。它对于推动深度学习和卷积神经网络的发展具有重要意义，是学术界公认的评价图像识别算法效果的基准。此外，该数据集也为学术研究提供了关于数据预处理、模型泛化能力等问题的研究案例。

实际应用

在实际应用中，MNIST数据集的成果被广泛应用于各类图像识别系统中，如邮件自动识别手写数字邮编、银行支票的数字识别等。它为开发能够处理真实世界图像的机器学习模型提供了基础训练数据，是图像处理和模式识别领域的重要资源。

数据集最近研究