notMNIST
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/notMNIST
下载链接
链接失效反馈官方服务:
资源简介:
采用一些公开可用的字体并从中提取字形,以制作类似于 MNIST 的数据集。有 10 个类,字母 A-J 取自不同的字体。以下是字母“A”的一些示例。从示例来看,人们会认为这比 MNIST 更难。情况似乎是这样——在堆叠式自动编码器之上进行微调的逻辑回归得到了大约 89% 的准确率,而同样的方法在 MNIST 上得到了 98% 的准确率。数据集由大约 19k 个实例的小型手动清理部分和 500k 个实例的大型未清理数据集组成。两部分的标签错误率大约为 0.5% 和 6.5%。我通过查看字形并计算我对字母的猜测与字体文件中的 unicode 值不匹配的频率来得到这个。
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
notMNIST是一个模仿MNIST的图像数据集,包含10个类别(字母A-J),基于不同字体字形构建,分为约19k个清理实例和500k个未清理实例,标签错误率分别为0.5%和6.5%,其分类难度高于MNIST。
以上内容由遇见数据集搜集并总结生成



