MNIST

github2020-06-09 更新2024-05-31 收录

下载链接：

https://github.com/Chirag-v09/datasets-1

下载链接

链接失效反馈

官方服务：

资源简介：

MNIST数据库包含手写数字，是一个广泛用于机器学习算法测试的标准数据集。

The MNIST database comprises handwritten digits and serves as a standard dataset extensively utilized for testing machine learning algorithms.

创建时间：

2020-03-04

原始信息汇总

数据集概述

数据集列表

链接: TensorFlow Datasets 数据集列表

数据集使用示例

Python 代码示例: python import tensorflow_datasets as tfds import tensorflow as tf

查看可用数据集

print(tfds.list_builders())

加载数据集

ds_train = tfds.load(name="mnist", split="train", shuffle_files=True)

构建输入管道

ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (`DatasetBuilder`)

功能: 所有数据集实现为 tfds.core.DatasetBuilder 的子类。
使用方法: python import tensorflow_datasets as tfds

mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info

数据集信息 (`DatasetInfo`)

示例: MNIST 数据集信息

tfds.core.DatasetInfo( name=mnist, version=1.0.0, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10) }, total_num_examples=70000, splits={ test: <tfds.core.SplitInfo num_examples=10000>, train: <tfds.core.SplitInfo num_examples=60000> }, supervised_keys=(image, label), citation=..., )

NumPy 使用

功能: 使用 tfds.as_numpy 从 tf.data.Dataset 返回生成器，生成 NumPy 数组记录。
使用方法: python train_ds = tfds.load("mnist", split="train") train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

引用信息

引用格式:

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

请求新数据集

请求方式: 通过 GitHub 问题提交数据集请求。

搜集汇总

数据集介绍

构建方式

MNIST数据集作为手写数字识别的经典基准，其构建过程基于大量手写数字样本的收集与标注。数据集由Yann LeCun等人于1998年发布，包含60,000个训练样本和10,000个测试样本。每个样本均为28x28像素的灰度图像，代表0到9之间的手写数字。数据集的构建通过扫描真实手写数字并对其进行标准化处理，确保图像尺寸和格式的一致性，从而为机器学习模型提供高质量的输入数据。

特点

MNIST数据集以其简洁性和高效性著称，广泛应用于深度学习模型的训练与评估。其特点包括图像尺寸统一、数据分布均衡以及标注准确。每个图像均为28x28像素的单通道灰度图，数据集中包含10个类别，分别对应0到9的数字。数据集的总样本量为70,000，其中训练集与测试集的比例为6:1，确保了模型训练与验证的充分性。此外，MNIST数据集的开源性质使其成为学术界和工业界的标准基准之一。

使用方法

MNIST数据集的使用方法主要通过TensorFlow Datasets库实现。用户可通过`tfds.load`函数加载数据集，并选择训练集或测试集进行模型训练与评估。数据集加载后，可通过`tf.data.Dataset`接口进行数据预处理，如打乱顺序、分批处理和预取数据等操作。此外，用户还可通过`tfds.as_numpy`将数据集转换为NumPy数组，以便与其他机器学习框架兼容。MNIST数据集的简洁接口和丰富功能使其成为深度学习初学者的理想选择。

背景与挑战

背景概述

MNIST数据集是机器学习领域中最经典的手写数字识别数据集之一，由Yann LeCun等人于1998年创建。该数据集包含了60000个训练样本和10000个测试样本，每个样本为28x28像素的灰度图像，代表0到9之间的手写数字。MNIST的创建旨在为研究人员提供一个标准化的基准数据集，用于验证和比较不同机器学习算法在图像分类任务中的性能。由于其简单性和广泛的应用，MNIST已成为深度学习入门和算法测试的首选数据集，对推动计算机视觉和模式识别领域的发展产生了深远影响。

当前挑战

尽管MNIST数据集在机器学习领域具有重要地位，但其简单性也带来了一些挑战。首先，MNIST的图像分辨率和复杂度较低，难以反映现实世界中复杂的图像分类问题，限制了其在现代深度学习模型中的适用性。其次，随着深度学习技术的快速发展，许多模型在MNIST上已经达到了接近100%的准确率，导致其作为基准数据集的有效性逐渐减弱。此外，MNIST的构建过程中也面临了数据采集和标注的挑战，尤其是在早期技术条件下，如何确保手写数字的多样性和标注的准确性是一个关键问题。这些挑战促使研究人员开发更具挑战性的数据集，如Fashion-MNIST和CIFAR-10，以更好地评估模型的性能。

常用场景

经典使用场景

MNIST数据集作为手写数字识别的基准数据集，广泛应用于机器学习领域的模型训练与评估。其经典使用场景包括卷积神经网络（CNN）的初始训练和验证，帮助研究者快速验证新算法的有效性。通过提供标准化的图像数据和标签，MNIST为深度学习模型的性能比较提供了统一的基准。

解决学术问题

MNIST数据集解决了机器学习领域中手写数字识别的核心问题，为研究者提供了一个简单但具有挑战性的任务，用于测试和比较不同算法的性能。其广泛的应用推动了图像分类、特征提取和模型优化等领域的研究进展，成为深度学习入门和教学的重要工具。

衍生相关工作

MNIST数据集催生了许多经典的研究工作，如LeNet-5的提出，该网络是早期卷积神经网络的代表。此外，基于MNIST的扩展数据集（如Fashion-MNIST）和变体（如EMNIST）进一步推动了图像分类领域的研究。这些衍生工作不仅丰富了数据集的应用场景，也为深度学习模型的创新提供了新的挑战。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

MNIST

数据集概述

数据集列表

数据集使用示例

查看可用数据集

加载数据集

构建输入管道

数据集构建器 (DatasetBuilder)

数据集信息 (DatasetInfo)

NumPy 使用

引用信息

请求新数据集

数据集构建器 (`DatasetBuilder`)

数据集信息 (`DatasetInfo`)