five

ylecun/mnist

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ylecun/mnist
下载链接
链接失效反馈
官方服务:
资源简介:
MNIST数据集包含70,000张28x28的黑白手写数字图像,分为60,000张训练图像和10,000张测试图像,每类数字有7,000张图像(6,000张训练图像和1,000张测试图像)。这些图像来自两个NIST数据库,分别由美国人口普查局员工和高中生绘制。数据集的主要任务是图像分类,即将手写数字图像分类为0到9的10个类别。数据集的创建目的是为模式识别方法和机器学习算法提供一个测试平台,减少预处理和格式化的工作量。

The MNIST dataset consists of 70,000 28×28 grayscale handwritten digit images, split into 60,000 training images and 10,000 test images. Each of the 10 digit classes contains 7,000 images in total, with 6,000 allocated for training and 1,000 for testing. These images are sourced from two NIST databases, with samples drawn by U.S. Census Bureau employees and high school students respectively. The primary task of this dataset is image classification, i.e., categorizing handwritten digit images into 10 classes ranging from 0 to 9. The dataset was created to provide a testbed for pattern recognition methods and machine learning algorithms, reducing the workload of data preprocessing and formatting.
提供机构:
ylecun
原始信息汇总

MNIST 数据集概述

数据集描述

数据集摘要

MNIST 数据集包含 70,000 张 28x28 的黑白手写数字图像,这些图像来自两个 NIST 数据库。训练集包含 60,000 张图像,验证集包含 10,000 张图像,每个数字一个类别,共 10 个类别,每个类别有 7,000 张图像(6,000 张训练图像和 1,000 张测试图像)。一半图像由人口普查局员工绘制,另一半由高中学生绘制(训练集和测试集均匀分布)。

支持的任务和排行榜

  • image-classification:任务目标是将有手写数字的图像分类为 0 到 9 之间的 10 个类别之一。排行榜可在此处查看。

语言

英语

数据集结构

数据实例

每个数据点包含一个图像及其标签:

json { "image": <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x276021F6DD8>, "label": 5 }

数据字段

  • image:一个 PIL.Image.Image 对象,包含 28x28 的图像。
  • label:一个介于 0 和 9 之间的整数,表示数字。

数据分割

数据分为训练集和测试集。测试集中的所有图像由与训练集不同的个体绘制。训练集包含 60,000 张图像,测试集包含 10,000 张图像。

数据集创建

策划理由

MNIST 数据库旨在为希望尝试模式识别方法或机器学习算法的人提供一个测试平台,同时尽量减少预处理和格式化的工作。原始数据集(NIST)的图像分为两组,一组由人口普查局员工绘制,另一组由高中学生绘制。在 NIST 中,训练集由所有人口普查局员工的图像组成,测试集由高中学生的图像组成。构建 MNIST 的目标是使训练集和测试集遵循相同的分布,因此训练集包含 30,000 张人口普查局员工的图像和 30,000 张高中学生的图像,测试集包含每组 5,000 张图像。策展人确保测试集中的所有图像由与训练集不同的个体绘制。

源数据

初始数据收集和规范化

NIST 的原始图像被大小归一化以适应 20x20 像素框,同时保持其纵横比。生成的图像包含灰度级别(即像素不仅仅是黑白值,而是 0 到 255 的灰度级别),这是由于归一化算法使用的抗锯齿技术。然后通过计算像素的质心并将图像平移,使该点位于 28x28 字段的中心,将图像居中于 28x28 图像中。

源语言生产者是谁?

一半的源图像由人口普查局员工绘制,一半由高中学生绘制。根据数据集策展人,第一组的图像更容易识别。

注释

注释过程

图像在创建后未进行注释:图像创建者在其绘制后用相应的标签注释了图像。

注释者是谁?

与源数据创建者相同。

使用数据的注意事项

数据集策展人

Chris Burges、Corinna Cortes 和 Yann LeCun

许可信息

MIT 许可证

引用信息

plaintext @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }

贡献

感谢 @sgugger 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
MNIST数据集的构建基于NIST数据库中的手写数字图像,通过精心筛选和归一化处理,形成了70,000张28x28像素的黑白图像。该数据集分为训练集和测试集,各包含60,000张和10,000张图像,每个数字类别有7,000张图像,确保了数据集的均衡性和代表性。构建过程中,特别关注了图像的来源和分布,使得训练集和测试集在数据分布上保持一致,同时确保测试集中的图像由与训练集不同的个体绘制。
特点
MNIST数据集以其简洁性和易用性著称,提供了标准化的图像格式和清晰的标签体系,适合于多种机器学习和模式识别算法的训练与测试。数据集的单一类别分布和均衡的样本数量,使得它成为评估算法性能的重要基准。此外,MNIST数据集的开放性和MIT许可协议,使得它在全球范围内被广泛接受和使用。
使用方法
使用MNIST数据集时,用户可以直接访问训练集和测试集中的图像和标签。图像以PIL库的Image对象形式存在,标签则是代表数字0到9的整数。用户需注意图像的解码可能消耗较多时间,因此推荐先索引样本再访问图像。数据集的MIT许可协议允许用户自由使用和修改数据,但应遵守相应的许可规定。
背景与挑战
背景概述
MNIST数据集,全称为Modified National Institute of Standards and Technology数据库,是由Yann LeCun、Corinna Cortes和CJ Burges在2010年创建的手写数字图像数据库。该数据集旨在为模式识别和机器学习算法提供一个标准的测试平台,减轻研究者在预处理和格式化数据上的负担。MNIST包含了从两个NIST数据库中提取的70,000张28x28像素的黑白手写数字图像,其中训练集60,000张,测试集10,000张,分为0到9共10个类别。该数据集的创建对机器学习领域产生了深远影响,成为手写数字识别领域的基准数据集。
当前挑战
尽管MNIST数据集在机器学习领域被广泛使用,但也面临一些挑战。首先,数据集中的图像经过了标准化处理,可能无法完全反映现实世界中的手写数字多样性。其次,数据集的构建过程中,尽管尝试保持了训练集和测试集的分布一致性,但仍然存在由于图像来源(一半来自人口普查局员工,一半来自高中生)不同可能导致的偏差。此外,数据集的标签是由图像创作者在绘制图像时直接标注的,这可能引入了主观判断的偏差。
常用场景
经典使用场景
在机器学习和图像识别领域,MNIST数据集被广泛用作手写数字识别的经典训练和测试平台。该数据集包含70,000张28x28像素的黑白图像,涵盖0至9共10个数字类别,其中60,000张图像用于训练,10,000张图像用于测试。由于其标注清晰、格式统一,MNIST成为验证和比较不同图像识别算法性能的标准基准。
解决学术问题
MNIST数据集解决了图像识别中的基础问题,为学术研究提供了一个标准化的评价体系。研究者可以利用它来测试和改进各种图像处理、特征提取以及分类算法,从而推动模式识别和机器学习领域的发展。该数据集的普及促进了深度学习技术在图像识别领域的广泛应用。
衍生相关工作
MNIST数据集的普及催生了众多相关研究工作,如改进的识别算法、对抗性样本的研究、数据增强技术的应用等。这些衍生工作进一步拓宽了图像识别技术的边界,并推动了人工智能领域的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作