five

anubhavmaity/notMNIST

收藏
Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anubhavmaity/notMNIST
下载链接
链接失效反馈
官方服务:
资源简介:
notMNIST数据集是一个包含从A到J字母图像的数据集,这些字母以各种字体呈现。它被设计为传统MNIST数据集的更具挑战性的替代品,MNIST数据集由手写数字组成。notMNIST数据集通常用于机器学习和计算机视觉任务中的字符识别。数据集包含10个类别(A到J),样本数量为18724,图像大小为28x28像素,颜色通道为灰度。数据集分为训练集和测试集,每个类别的图像存储在其对应的子目录中。

notMNIST数据集是一个包含从A到J字母图像的数据集,这些字母以各种字体呈现。它被设计为传统MNIST数据集的更具挑战性的替代品,MNIST数据集由手写数字组成。notMNIST数据集通常用于机器学习和计算机视觉任务中的字符识别。数据集包含10个类别(A到J),样本数量为18724,图像大小为28x28像素,颜色通道为灰度。数据集分为训练集和测试集,每个类别的图像存储在其对应的子目录中。
提供机构:
anubhavmaity
原始信息汇总

数据集概述

基本信息

  • 数据集名称: notMNIST
  • 类别数: 10 (A 到 J)
  • 样本总数: 187,24
  • 图像尺寸: 28 x 28 像素
  • 颜色通道: 灰度

数据集结构

  • 训练集:

    • 文件路径: data/train-*
    • 样本数量: 14979
    • 文件大小: 6842235.510231657 字节
  • 测试集:

    • 文件路径: data/test-*
    • 样本数量: 3745
    • 文件大小: 1715013.5296924065 字节

数据集特征

  • 图像:

    • 数据类型: 图像
  • 标签:

    • 数据类型: 类别标签
    • 类别名称:
      • 0: A
      • 1: B
      • 2: C
      • 3: D
      • 4: E
      • 5: F
      • 6: G
      • 7: H
      • 8: I
      • 9: J

数据集大小

  • 下载大小: 8865158 字节
  • 数据集大小: 8557249.039924063 字节

任务类别

  • 图像分类
  • 图像到图像
  • 文本到图像
  • 图像到文本

标签

  • mnist
  • notmnist

数据集目录结构

notMNIST/ |-- train/ | |-- A/ | |-- B/ | |-- ... | |-- J/ | |-- test/ | |-- A/ | |-- B/ | |-- ... | |-- J/

搜集汇总
数据集介绍
main_image_url
构建方式
anubhavmaity/notMNIST数据集的构建,是基于对字母A至J在不同字体中的图像收集。这些图像经过整理后,分为训练集和测试集两个部分,每个部分都包含10个类别的子目录,类别从A到J,每个子目录中包含了相应类别的图像文件。数据集在构建时保持了28x28像素的图像大小,并采用灰度通道存储,以适应机器学习和计算机视觉领域对字符识别任务的需求。
特点
该数据集的特点在于其作为传统MNIST数据集的挑战性替代品,提供了更为复杂的字符识别场景。它包含了10个类别,每个类别有大量样本,总计超过18万7千个图像样本。图像尺寸统一,便于处理,同时灰度通道的简化也降低了数据处理的复杂性。此外,数据集的 splits 信息详细,包括每个部分的字节数和示例数,方便用户了解数据集的具体构成。
使用方法
使用anubhavmaity/notMNIST数据集时,用户首先需要根据提供的路径下载训练集和测试集。数据集的结构清晰,每个类别的图像都存储在相应的子目录中,便于按类别进行数据加载和处理。用户可以利用数据集提供的类标签映射,将图像的标签转换为相应的字母类别,进而应用于图像分类、图像到图像、文本到图像以及图像到文本等机器学习任务中。
背景与挑战
背景概述
notMNIST数据集,作为MNIST数据集的一个变体,旨在为字符识别领域提供更为复杂的挑战。该数据集由多种字体中的字母A至J的图像构成,创建于2011年,最早由Yaroslav Bulatov提出。它被广泛应用于机器学习和计算机视觉领域,用于训练模型进行字符识别任务。notMNIST数据集因其相较于传统的MNIST数据集更具挑战性,而对相关领域产生了显著影响,推进了字符识别技术的研究与发展。
当前挑战
该数据集在构建过程中及实际应用中面临的挑战主要包括:首先,由于字体多样,图像中字符的识别相较于手写数字更为复杂;其次,数据集的构建需要处理不同字体、大小、粗细等变化,增加了数据清洗和预处理的工作难度;最后,在图像分类任务中,如何提高模型对于字体变化和噪声的抗干扰能力,是当前研究中的一个重要挑战。
常用场景
经典使用场景
在机器学习与计算机视觉领域,anubhavmaity/notMNIST数据集以其独特的图像识别挑战而备受青睐。该数据集包含从A到J共10个类别的字母图像,常被用于图像分类任务中,作为传统MNIST手写数字数据集的进阶版本,其核心应用场景在于训练模型识别不同字体和样式的字母。
实际应用
在实际应用中,anubhavmaity/notMNIST数据集可用于开发字符识别系统,如自动化文档分析、邮件分类系统以及教育软件中的互动学习工具。它有助于提升系统在处理不同字体和样式字符时的准确度和效率。
衍生相关工作
基于anubhavmaity/notMNIST数据集,研究者们衍生出了一系列相关工作,包括但不限于改进的字符识别模型、对抗性样本的研究以及跨领域图像识别技术的探索。这些工作进一步推动了计算机视觉领域的发展,丰富了图像识别技术的应用范畴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作