ylecun/mnist
收藏MNIST 数据集概述
数据集描述
数据集摘要
MNIST 数据集包含 70,000 张 28x28 的黑白手写数字图像,这些图像来自两个 NIST 数据库。训练集包含 60,000 张图像,验证集包含 10,000 张图像,每个数字一个类别,共 10 个类别,每个类别有 7,000 张图像(6,000 张训练图像和 1,000 张测试图像)。一半图像由人口普查局员工绘制,另一半由高中学生绘制(训练集和测试集均匀分布)。
支持的任务和排行榜
image-classification:任务目标是将有手写数字的图像分类为 0 到 9 之间的 10 个类别之一。排行榜可在此处查看。
语言
英语
数据集结构
数据实例
每个数据点包含一个图像及其标签:
json { "image": <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x276021F6DD8>, "label": 5 }
数据字段
image:一个PIL.Image.Image对象,包含 28x28 的图像。label:一个介于 0 和 9 之间的整数,表示数字。
数据分割
数据分为训练集和测试集。测试集中的所有图像由与训练集不同的个体绘制。训练集包含 60,000 张图像,测试集包含 10,000 张图像。
数据集创建
策划理由
MNIST 数据库旨在为希望尝试模式识别方法或机器学习算法的人提供一个测试平台,同时尽量减少预处理和格式化的工作。原始数据集(NIST)的图像分为两组,一组由人口普查局员工绘制,另一组由高中学生绘制。在 NIST 中,训练集由所有人口普查局员工的图像组成,测试集由高中学生的图像组成。构建 MNIST 的目标是使训练集和测试集遵循相同的分布,因此训练集包含 30,000 张人口普查局员工的图像和 30,000 张高中学生的图像,测试集包含每组 5,000 张图像。策展人确保测试集中的所有图像由与训练集不同的个体绘制。
源数据
初始数据收集和规范化
NIST 的原始图像被大小归一化以适应 20x20 像素框,同时保持其纵横比。生成的图像包含灰度级别(即像素不仅仅是黑白值,而是 0 到 255 的灰度级别),这是由于归一化算法使用的抗锯齿技术。然后通过计算像素的质心并将图像平移,使该点位于 28x28 字段的中心,将图像居中于 28x28 图像中。
源语言生产者是谁?
一半的源图像由人口普查局员工绘制,一半由高中学生绘制。根据数据集策展人,第一组的图像更容易识别。
注释
注释过程
图像在创建后未进行注释:图像创建者在其绘制后用相应的标签注释了图像。
注释者是谁?
与源数据创建者相同。
使用数据的注意事项
数据集策展人
Chris Burges、Corinna Cortes 和 Yann LeCun
许可信息
MIT 许可证
引用信息
plaintext @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }
贡献
感谢 @sgugger 添加此数据集。




