mnist

github2019-10-10 更新2024-05-31 收录

下载链接：

https://github.com/VonRosenchild/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MNIST数据库包含手写数字。

The MNIST database comprises handwritten digits.

创建时间：

2019-10-10

原始信息汇总

数据集概述

TensorFlow Datasets 是一个提供多种公共数据集的平台，这些数据集可以作为 tf.data.Datasets 使用。

数据集列表

访问数据集列表查看所有可用数据集。

数据集使用示例

在 Colab 笔记本中交互式尝试数据集。

数据集API文档

查看 API 文档了解如何使用数据集。

数据集版本管理

了解数据集版本管理。

数据集分割和切片API

学习如何使用分割和切片API。

添加新数据集

按照添加数据集指南添加新数据集。

大型数据集 (>100GiB)

了解如何添加大型数据集。

数据集安装

sh pip install tensorflow-datasets pip install tensorflow

数据集使用

python import tensorflow_datasets as tfds import tensorflow as tf

tf.compat.v1.enable_eager_execution() ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10)

数据集构建器 (`DatasetBuilder`)

所有数据集都实现为 DatasetBuilder 的子类。
使用 tfds.load 加载数据集。

NumPy 使用

使用 tfds.as_numpy 从 tf.data.Dataset 获取 NumPy 数组。

请求特定数据集

通过 GitHub 问题请求新数据集。

免责声明

数据集的使用需遵守各自的许可证，用户需自行判断使用许可。

搜集汇总

数据集介绍

构建方式

MNIST数据集是由Yann LeCun等人构建的，包含手写数字的灰度图像。该数据集通过TensorFlow Datasets平台提供，采用模块化的`DatasetBuilder`类进行实现，支持数据集的下载、准备和构建。数据集分为训练集和测试集，共包含70,000个样本，其中训练集60,000个，测试集10,000个。每个样本由28x28像素的图像和一个对应的数字标签组成。

特点

MNIST数据集的特点在于其广泛用于手写数字识别任务，具有标准化的数据格式和清晰定义的标签。数据集以灰度图像形式存在，每个图像都有与之相对应的类别标签，从0到9的数字。此外，数据集具备完整的文档说明和引用信息，确保用户能够正确地了解和使用数据集。数据集支持版本控制，保证了数据一致性和可重复性。

使用方法

使用MNIST数据集时，用户首先需要通过TensorFlow Datasets库安装相应的构建器。之后，可以通过`tfds.load`函数加载数据集，并利用`tf.data.Dataset` API进行数据预处理，如打乱、批处理和预取等操作。此外，数据集还支持转换为NumPy数组，便于在模型训练中使用。用户应确保遵守数据集的使用条款，并对数据的使用负责。

背景与挑战

背景概述

MNIST数据集，全称为Modified National Institute of Standards and Technology数据库，是由Yann LeCun、Corinna Cortes和CJ Burges等人在2010年创建的，主要用于手写数字识别的研究。该数据集包含60,000个训练样本和10,000个测试样本，每个样本均为28x28像素的灰度图像，对应0至9这10个类别中的一个。MNIST数据集对手写数字识别领域的研究产生了深远影响，成为评估和比较不同图像处理算法的标准基准。

当前挑战

尽管MNIST数据集在手写数字识别领域取得了显著成就，但在构建和使用过程中也存在一些挑战。首先，数据集的规模相对较小，这可能导致模型在泛化到更复杂或更大规模的数据时表现不佳。其次，数据集中图像的分布可能不够均匀，某些数字类别的样本数量可能多于其他类别，从而影响模型的准确性和公平性。此外，MNIST数据集的图像均为中心对齐和尺寸规范化的，这在现实世界的应用中可能不足以代表所有的手写数字样式。

常用场景

经典使用场景

MNIST数据集是手写数字识别领域中的经典数据集，广泛应用于深度学习和机器学习模型的基准测试。它包含60,000个训练样本和10,000个测试样本，每个样本都是一个28x28像素的灰度图像，对应于0至9之间的一个数字。该数据集的经典使用场景在于训练各种图像识别模型，例如卷积神经网络(CNN)，以评估模型在图像分类任务上的性能。

实际应用

在实际应用中，MNIST数据集被用于开发能够识别手写数字的软件系统，这些系统广泛应用于银行支票处理、邮件分类和其他需要自动识别数字的场合。此外，它也是教育领域的重要工具，用于向学生介绍图像处理和机器学习的基本概念。

衍生相关工作

MNIST数据集的普及促进了大量相关工作的衍生，包括改进的图像识别算法、对抗性样本的研究以及在不同噪声和扰动条件下的模型鲁棒性分析。这些衍生工作进一步扩展了原始数据集的应用范围，推动了计算机视觉领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集