mnist

github2019-05-24 更新2024-05-31 收录

下载链接：

https://github.com/jackd/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MNIST数据库包含手写数字。

The MNIST database comprises handwritten digits.

创建时间：

2019-01-27

原始信息汇总

数据集概述

TensorFlow Datasets 提供了多种公共数据集，这些数据集可以通过 tf.data.Datasets 接口访问。

数据集列表

链接: List of datasets

数据集使用示例

Colab 示例: Try it in Colab

API 文档

API 文档链接: API docs

数据集添加指南

添加数据集指南: Add a dataset

数据集安装与使用

安装

命令: pip install tensorflow-datasets
依赖: 需要 TensorFlow 1.13+

使用示例

python import tensorflow_datasets as tfds import tensorflow as tf

tf.enable_eager_execution() ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (`DatasetBuilder`)

实现: 所有数据集通过 DatasetBuilder 实现。
使用示例: python mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info

NumPy 使用

功能: 使用 tfds.as_numpy 将 tf.data.Dataset 转换为 NumPy 数组。
使用示例: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求新数据集

请求方式: 通过 GitHub 问题提出。
投票: 在现有请求上添加点赞反应。

免责声明

责任: 用户需自行判断是否有权使用数据集，并遵守数据集的许可协议。
更新与移除: 数据集所有者可通过 GitHub 问题联系更新或移除数据集。

搜集汇总

数据集介绍

构建方式

MNIST数据集是由LeCun等人构建的手写数字数据库，它通过收集250个不同人的手写数字构成，其中包括50个不同人的每个数字手写样本。数据集分为训练集和测试集，其中训练集包含60000个样本，测试集包含10000个样本。每个样本都是一个28x28像素的灰度图像，标签为0至9的数字，代表相应的手写数字。

使用方法

使用MNIST数据集，首先需要通过TensorFlow Datasets库进行安装和加载。利用tfds.load函数可以轻松地加载数据集，并对其进行随机打乱、批处理和预取等操作以构建输入管道。此外，数据集支持NumPy使用方式，可以通过tfds.as_numpy函数将tf.data.Dataset转换为生成NumPy数组的迭代器，便于用户在模型中使用。

背景与挑战

背景概述

MNIST数据集，全称为Modified National Institute of Standards and Technology数据库，是由Yann LeCun、Corinna Cortes和CJ Burges等研究人员于2010年创建的手写数字数据库。该数据集包含了70,000个灰度图像，分为训练集和测试集，是机器学习和深度学习领域的基础数据集之一，尤其对于图像分类任务具有深远影响。MNIST数据集的构建旨在为模式识别和计算机视觉领域提供标准化的基准，自发布以来被广泛应用于学术研究和商业产品中。

当前挑战

尽管MNIST数据集为图像分类任务提供了便捷的基准，但在构建和使用过程中也存在一些挑战。首先，由于数据集的图像较为简单，导致其在复杂图像分类任务上的泛化能力有限。其次，MNIST数据集的构建过程中，图像经过了归一化和中心化处理，这可能使得模型过于依赖这些预处理步骤，从而在实际应用中遇到困难。此外，数据集的版权和隐私问题也是使用时需考虑的挑战之一。

常用场景

经典使用场景

在机器学习和深度学习领域，MNIST数据集被广泛用于作为手写数字识别的基准测试。该数据集包含了60000个训练样本和10000个测试样本，每个样本均为28x28像素的灰度图像，对应10个类别中的一个数字。其经典使用场景是训练各种图像分类模型，如卷积神经网络(CNN)，以实现对手写数字的准确识别。

解决学术问题

MNIST数据集解决了图像识别领域中的基础学术问题，即如何训练模型以识别和分类小型、灰度级的图像。它为研究者提供了一个统一的评价标准，有助于比较不同算法的性能，推动了图像识别技术的发展。同时，该数据集也是教学深度学习和机器学习概念的理想资源。

实际应用

在实际应用中，MNIST数据集的模型可以被应用于邮件分类、文档数字化处理等领域，辅助识别手写文本。此外，它也是开发更复杂图像识别系统的基础，如自动识别系统中的字符识别模块。

数据集最近研究