five

MNIST

收藏
github2019-11-24 更新2024-05-31 收录
下载链接:
https://github.com/wookayin/tensorflow-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
MNIST数据库是一个手写数字的数据集。

The MNIST database is a dataset of handwritten digits.
创建时间:
2019-01-10
原始信息汇总

数据集概述

数据集名称

  • MNIST

数据集描述

数据集特征

  • 图像: Image(shape=(28, 28, 1), dtype=tf.uint8)
  • 标签: ClassLabel(shape=(), dtype=tf.int64, num_classes=10)

数据集大小

  • 总样本数: 70000
  • 训练集: 60000样本
  • 测试集: 10000样本

监督学习键

  • 输入: image
  • 输出: label

引用信息

@article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={AT&T Labs [Online]. Available: http://yann. lecun. com/exdb/mnist}, volume={2}, year={2010} }

使用示例

python import tensorflow_datasets as tfds

获取数据集构建器

mnist_builder = tfds.builder("mnist")

下载并准备数据集

mnist_builder.download_and_prepare()

构建tf.data.Dataset

dataset = mnist_builder.as_dataset(split=tfds.Split.TRAIN)

获取数据集信息

info = mnist_builder.info print(info)

NumPy使用示例

python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.dataset_as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

搜集汇总
数据集介绍
main_image_url
构建方式
MNIST数据集通过继承TensorFlow DatasetBuilder类的方式构建,采用MNIST数据库中的手写数字图像作为数据源,包含数字0到9的灰度图像。数据集分为训练集和测试集,其中训练集包含60,000个样本,测试集包含10,000个样本,每个样本由28x28像素的图像和一个对应的标签组成。
特点
MNIST数据集的特点在于其广泛的适用性,被广泛用于图像识别和机器学习算法的基准测试。数据集以灰度图像形式存在,简化了预处理步骤。此外,数据集提供了详细的描述和引用信息,方便用户了解和使用。其结构化的数据格式易于集成到TensorFlow数据管道中,支持高效的批量处理和预取操作。
使用方法
使用MNIST数据集,用户首先需要通过TensorFlow Datasets库安装和加载数据集。之后,可以利用tf.data.Dataset API构建输入管道,对数据进行混洗、批处理和预取,以适应模型训练的需要。数据集还支持转换为NumPy数组,便于用户在模型的不同组件中使用。用户需确保遵守数据集的使用条款,并在必要时引用数据集的原始来源。
背景与挑战
背景概述
MNIST数据集,全名Modified National Institute of Standards and Technology database,是机器学习和深度学习中广泛使用的手写数字识别数据集。该数据集由Yann LeCun、Corinna Cortes和CJ Burges等研究人员于2010年创建,包含了70,000个灰度图像,其中60,000个用于训练,10,000个用于测试。每个图像都是一个28x28像素的数组,代表了0至9的手写数字。MNIST数据集在模式识别、图像处理和神经网络领域具有深远的影响,被广泛用作基准测试。其来源是AT&T Labs的数据库,现已成为评估分类算法性能的标准数据集。
当前挑战
MNIST数据集在构建和应用过程中遇到的挑战主要包括:1)数据集的预处理和标准化,以确保输入数据的质量和一致性;2)数据集的平衡性,尽管MNIST在数字类别上是平衡的,但在实际应用中仍需关注不平衡问题;3)在深度学习模型训练中,如何有效地处理和优化大规模数据集,以提高训练效率和模型性能;4)随着机器学习技术的进步,如何将MNIST数据集应用于更复杂的问题,如手写文字识别、图像分割等。
常用场景
经典使用场景
MNIST数据集作为手写数字识别的权威数据集,广泛应用于深度学习和计算机视觉领域。其经典使用场景在于训练卷积神经网络(CNN)模型,通过对60,000个训练样本和10,000个测试样本的学习,使模型能够准确识别手写数字0到9。该数据集格式简洁,易于加载和处理,成为诸多学术研究和实验的理想选择。
解决学术问题
MNIST数据集解决了模式识别中的基础问题,即如何让机器有效识别手写数字。它的存在为研究者提供了一个标准化、普遍接受的测试平台,以评估和比较不同算法的性能。通过该数据集,研究者能够深入探索机器学习模型,尤其是深度学习模型在图像识别任务中的泛化能力和鲁棒性。
衍生相关工作
MNIST数据集衍生了许多相关工作,如改进的模型结构、数据增强技术以及针对特定任务的迁移学习。这些工作不仅推动了图像识别技术的进步,也为其他领域如语音识别、自然语言处理提供了借鉴。MNIST数据集的经典性促成了大量学术文章的发表,对机器学习领域产生了深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作