mnist

github2019-07-13 更新2024-05-31 收录

下载链接：

https://github.com/rky0930/tensorflow_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MNIST数据库包含手写数字。

The MNIST database contains handwritten digits.

创建时间：

2019-07-11

原始信息汇总

数据集概述

TensorFlow Datasets 提供了多种公共数据集，这些数据集可以作为 tf.data.Datasets 使用。

数据集列表

链接: List of datasets

数据集使用示例

Colab 示例: Try it in Colab

API 文档

API 文档链接: API docs

数据集版本管理

指南链接: Datasets versioning

数据集分割和切片API

指南链接: Using splits and slicing API

添加数据集指南

添加数据集指南链接: Add a dataset
添加大型数据集指南链接: Add a huge dataset (>>100GiB)

数据集安装与使用

安装

安装命令: sh pip install tensorflow-datasets pip install tensorflow

使用示例

Python 代码示例: python import tensorflow_datasets as tfds import tensorflow as tf tf.enable_eager_execution() print(tfds.list_builders()) ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (`DatasetBuilder`)

数据集构建器说明: 所有数据集都实现为 DatasetBuilder 的子类。
数据集信息获取示例: python mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)

NumPy 使用

使用 tfds.as_numpy 获取 NumPy 数组: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求特定数据集

添加数据集指南链接: Add a dataset
数据集请求链接: Dataset request GitHub issue

免责声明

免责声明: 本库是一个下载和准备公共数据集的工具库，不负责数据集的质量、公平性或使用许可。

搜集汇总

数据集介绍

构建方式

MNIST数据集通过TensorFlow Datasets平台构建，该平台提供众多公开数据集。MNIST数据集包含手写数字的灰度图像，每个图像大小为28x28像素。数据集由70,000个样本组成，其中60,000个用于训练，10,000个用于测试。数据集通过从Yann LeCun的网站下载并预处理得到。

使用方法

使用MNIST数据集，首先需要通过TensorFlow Datasets的tfds.load函数加载数据集。可以选择不同的数据集分割，例如训练集和测试集。加载后，可以使用tf.data.Dataset API对数据进行混洗、批处理和预取，以构建高效的数据输入管道。此外，还可以使用tfds.as_numpy工具将数据集转换为NumPy数组，便于在模型中使用。

背景与挑战

背景概述

MNIST数据集，全称为Modified National Institute of Standards and Technology database，是一个广泛使用的手写数字识别数据集。该数据集最初由Yann LeCun、Corinna Cortes和CJ Burges在2010年提出，包含70,000个灰度图像，分为训练集和测试集。每个图像都是一个28x28的像素网格，代表0至9的手写数字。MNIST数据集对机器学习和模式识别领域产生了深远影响，成为评估和比较各类图像识别算法的标准基准。

当前挑战

尽管MNIST数据集在图像识别领域具有较高的准确率，但在实际应用中仍面临一些挑战。首先，数据集的图像过于规整，与真实场景中手写数字的多样性存在差距。其次，由于数据集规模有限，模型可能出现过拟合现象。此外，构建MNIST数据集时的挑战包括图像的预处理、数据增强以及跨平台兼容性等问题。

常用场景

经典使用场景

在机器学习和深度学习领域，MNIST数据集被广泛用作手写数字识别的经典训练和测试场景。该数据集包含了60000个训练样本和10000个测试样本，每个样本均为28x28像素的灰度图像，对应10个类别的手写数字。通过该数据集，研究者可以训练模型识别和分类手写数字，是入门图像识别和神经网络训练的重要实践。

解决学术问题

MNIST数据集解决了学术研究中如何构建和训练简单图像识别模型的问题。它为研究者提供了一个标准化的、干净且易于处理的数据集，使得不同模型和算法之间的性能比较成为可能，对于推动机器学习领域的基础研究和技术进步具有重要意义。

实际应用

在实际应用中，MNIST数据集的模型可以被应用于邮件分类、文档数字化处理等多种场景，帮助实现自动化处理手写文本信息。它的应用不仅限于学术研究，在商业和政府机构中也具有广泛的应用价值。

数据集最近研究