five

louisraedisch/AlphaNum

收藏
Hugging Face2023-08-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/louisraedisch/AlphaNum
下载链接
链接失效反馈
官方服务:
资源简介:
AlphaNum数据集是一个包含108,791张手写字符、数字和特殊字符的灰度图像集合,每张图像大小为24x24像素。该数据集旨在支持光学字符识别(OCR)的研究和开发。数据集分为三个独立的.zip文件:`train.zip`、`test.zip`和`validation.zip`。每个ASCII符号都存储在一个专用文件夹中,文件夹名称对应于该符号的ASCII值。数据集还包括一个null类别的图像,这些图像通过注入噪声来模拟随机分布的亮像素。数据集来源于三个不同的数据库,并经过处理以保持大小和颜色的一致性。

AlphaNum数据集是一个包含108,791张手写字符、数字和特殊字符的灰度图像集合,每张图像大小为24x24像素。该数据集旨在支持光学字符识别(OCR)的研究和开发。数据集分为三个独立的.zip文件:`train.zip`、`test.zip`和`validation.zip`。每个ASCII符号都存储在一个专用文件夹中,文件夹名称对应于该符号的ASCII值。数据集还包括一个null类别的图像,这些图像通过注入噪声来模拟随机分布的亮像素。数据集来源于三个不同的数据库,并经过处理以保持大小和颜色的一致性。
提供机构:
louisraedisch
原始信息汇总

AlphaNum Dataset 概述

数据集基本信息

  • 许可证: MIT
  • 任务类别: 图像分类
  • 语言: 英语
  • 标签: OCR, 手写, 字符识别, 灰度图像, ASCII标签, 光学字符识别
  • 数据集大小: 100K<n<1M

数据集描述

  • 数据集名称: AlphaNum
  • 数据类型: 108,791张24x24像素的灰度图像,包含手写文字和数字
  • 应用领域: 光学字符识别(OCR)研究与开发
  • 图像处理: 图像从白底黑字转换为黑底白字,以保持一致性

数据来源

  • 来源1: Handwriting Characters Database
  • 来源2: MNIST
  • 来源3: AZ Handwritten Alphabets in CSV format

数据集结构

  • 实例描述: 每个实例包含一个手写字符或数字的图像及其对应的ASCII标签
  • 数据组织: 分为三个.zip文件:train.zip (55.9 MB), test.zip (16 MB), validation.zip (8.06 MB)。每个ASCII符号有自己的文件夹,文件夹名对应ASCII值

数据集用途

  • 主要用途: 文本识别、文档处理、机器学习任务,特别是OCR模型的开发、微调和增强

特殊类别图像生成

  • null类别: 通过注入噪声生成,用于模拟随机分布的亮像素,帮助模型忽略训练数据中的特定区域,提高实际OCR任务中的性能

ASCII标签与文件数量对应表

ASCII Value Character Number of Files
... ... ...
999 null 4999
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作