louisraedisch/AlphaNum
收藏Hugging Face2023-08-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/louisraedisch/AlphaNum
下载链接
链接失效反馈官方服务:
资源简介:
AlphaNum数据集是一个包含108,791张手写字符、数字和特殊字符的灰度图像集合,每张图像大小为24x24像素。该数据集旨在支持光学字符识别(OCR)的研究和开发。数据集分为三个独立的.zip文件:`train.zip`、`test.zip`和`validation.zip`。每个ASCII符号都存储在一个专用文件夹中,文件夹名称对应于该符号的ASCII值。数据集还包括一个null类别的图像,这些图像通过注入噪声来模拟随机分布的亮像素。数据集来源于三个不同的数据库,并经过处理以保持大小和颜色的一致性。
AlphaNum数据集是一个包含108,791张手写字符、数字和特殊字符的灰度图像集合,每张图像大小为24x24像素。该数据集旨在支持光学字符识别(OCR)的研究和开发。数据集分为三个独立的.zip文件:`train.zip`、`test.zip`和`validation.zip`。每个ASCII符号都存储在一个专用文件夹中,文件夹名称对应于该符号的ASCII值。数据集还包括一个null类别的图像,这些图像通过注入噪声来模拟随机分布的亮像素。数据集来源于三个不同的数据库,并经过处理以保持大小和颜色的一致性。
提供机构:
louisraedisch
原始信息汇总
AlphaNum Dataset 概述
数据集基本信息
- 许可证: MIT
- 任务类别: 图像分类
- 语言: 英语
- 标签: OCR, 手写, 字符识别, 灰度图像, ASCII标签, 光学字符识别
- 数据集大小: 100K<n<1M
数据集描述
- 数据集名称: AlphaNum
- 数据类型: 108,791张24x24像素的灰度图像,包含手写文字和数字
- 应用领域: 光学字符识别(OCR)研究与开发
- 图像处理: 图像从白底黑字转换为黑底白字,以保持一致性
数据来源
- 来源1: Handwriting Characters Database
- 来源2: MNIST
- 来源3: AZ Handwritten Alphabets in CSV format
数据集结构
- 实例描述: 每个实例包含一个手写字符或数字的图像及其对应的ASCII标签
- 数据组织: 分为三个.zip文件:
train.zip(55.9 MB),test.zip(16 MB),validation.zip(8.06 MB)。每个ASCII符号有自己的文件夹,文件夹名对应ASCII值
数据集用途
- 主要用途: 文本识别、文档处理、机器学习任务,特别是OCR模型的开发、微调和增强
特殊类别图像生成
- null类别: 通过注入噪声生成,用于模拟随机分布的亮像素,帮助模型忽略训练数据中的特定区域,提高实际OCR任务中的性能
ASCII标签与文件数量对应表
| ASCII Value | Character | Number of Files |
|---|---|---|
| ... | ... | ... |
| 999 | null | 4999 |
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



