pittawat/letter_recognition
收藏Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pittawat/letter_recognition
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: image
dtype: image
- name: label
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
'4': E
'5': F
'6': G
'7': H
'8': I
'9': J
'10': K
'11': L
'12': M
'13': 'N'
'14': O
'15': P
'16': Q
'17': R
'18': S
'19': T
'20': U
'21': V
'22': W
'23': X
'24': 'Y'
'25': Z
splits:
- name: train
num_bytes: 22453522
num_examples: 26000
- name: test
num_bytes: 2244964.8
num_examples: 2600
download_size: 8149945
dataset_size: 24698486.8
task_categories:
- image-classification
language:
- en
size_categories:
- 1K<n<10K
---
# Dataset Card for "letter_recognition"
Images in this dataset was generated using the script defined below. The original dataset in CSV format and more information of the original dataset is available at [A-Z Handwritten Alphabets in .csv format](https://www.kaggle.com/datasets/sachinpatel21/az-handwritten-alphabets-in-csv-format).
```python
import os
import pandas as pd
import matplotlib.pyplot as plt
CHARACTER_COUNT = 26
data = pd.read_csv('./A_Z Handwritten Data.csv')
mapping = {str(i): chr(i+65) for i in range(26)}
def generate_dataset(folder, end, start=0):
if not os.path.exists(folder):
os.makedirs(folder)
print(f"The folder '{folder}' has been created successfully!")
else:
print(f"The folder '{folder}' already exists.")
for i in range(CHARACTER_COUNT):
dd = data[data['0']==i]
for j in range(start, end):
ddd = dd.iloc[j]
x = ddd[1:].values
x = x.reshape((28, 28))
plt.axis('off')
plt.imsave(f'{folder}/{mapping[str(i)]}_{j}.jpg', x, cmap='binary')
generate_dataset('./train', 1000)
generate_dataset('./test', 1100, 1000)
```
### 数据集信息
#### 特征字段
1. **image(图像)**:数据类型为图像类型
2. **label(标签)**:数据类型为类别标签(class_label),类别名称映射关系如下:
- 0: A
- 1: B
- 2: C
- 3: D
- 4: E
- 5: F
- 6: G
- 7: H
- 8: I
- 9: J
- 10: K
- 11: L
- 12: M
- 13: N
- 14: O
- 15: P
- 16: Q
- 17: R
- 18: S
- 19: T
- 20: U
- 21: V
- 22: W
- 23: X
- 24: Y
- 25: Z
#### 数据划分
1. 训练集(train):占用字节数22453522,样本总量26000
2. 测试集(test):占用字节数2244964.8,样本总量2600
#### 全局统计
下载大小:8149945 字节;总数据集大小:24698486.8 字节
#### 任务与属性
任务类别:图像分类(image-classification);语言:英语(en);样本量范围:1K < n < 10K
---
# 「字母识别」数据集卡片
本数据集的图像通过下述脚本生成。原始数据集为CSV格式,更多相关信息可参阅[A-Z手写字母CSV数据集](https://www.kaggle.com/datasets/sachinpatel21/az-handwritten-alphabets-in-csv-format)。
python
import os
import pandas as pd
import matplotlib.pyplot as plt
# 设定字符总数为26
CHARACTER_COUNT = 26
# 读取原始CSV格式数据集
data = pd.read_csv('./A_Z Handwritten Data.csv')
# 构建数字索引到大写字母的映射字典:0→A,1→B,依此类推至25→Z
mapping = {str(i): chr(i+65) for i in range(26)}
def generate_dataset(folder, end, start=0):
"""生成指定字母类别的图像数据集并保存至目标文件夹"""
if not os.path.exists(folder):
os.makedirs(folder)
print(f"文件夹'{folder}'已成功创建!")
else:
print(f"文件夹'{folder}'已存在。")
# 遍历全部26个字母类别
for i in range(CHARACTER_COUNT):
# 筛选出当前类别对应的所有样本
dd = data[data['0'] == i]
# 遍历指定索引范围内的样本
for j in range(start, end):
# 获取当前样本的像素数据(排除首列的标签列)
ddd = dd.iloc[j]
x = ddd[1:].values
# 将一维像素数组重塑为28×28的二维图像矩阵
x = x.reshape((28, 28))
# 关闭图像坐标轴
plt.axis('off')
# 以二进制灰度模式保存图像,命名格式为「{文件夹路径}/{字母}_{索引}.jpg」
plt.imsave(f'{folder}/{mapping[str(i)]}_{j}.jpg', x, cmap='binary')
# 生成训练集:每个字母选取前1000个样本,总计26×1000=26000个样本
generate_dataset('./train', 1000)
# 生成测试集:每个字母选取索引1000至1100的样本,总计26×100=2600个样本
generate_dataset('./test', 1100, 1000)
提供机构:
pittawat
原始信息汇总
数据集概述
数据集名称
- 名称: letter_recognition
数据集特征
- 特征:
- image: 图像数据
- label: 类别标签,包含26个类别,分别对应从A到Z的字母
数据集划分
- 训练集:
- 样本数量: 26000
- 存储大小: 22453522字节
- 测试集:
- 样本数量: 2600
- 存储大小: 2244964.8字节
数据集大小
- 下载大小: 8149945字节
- 数据集总大小: 24698486.8字节
任务类别
- 任务: 图像分类
语言
- 语言: 英语
大小类别
- 大小范围: 1K<n<10K
搜集汇总
数据集介绍

构建方式
pittawat/letter_recognition数据集的构建是通过从CSV格式的原始数据集中读取手写字母数据,并将这些数据转换为图像格式。具体而言,数据集的构建脚本首先读取包含26个英文字母手写数据的数据集,然后通过遍历数据集中的每一个样本,将其转换为一个28x28像素的图像,并按照字母类别存储到相应的文件夹中,分为训练集和测试集两部分。
特点
该数据集的主要特点是包含26个英文字母的手写图像,每个字母都有1000个训练样本和100个测试样本,总计26000个训练样本和2600个测试样本。数据集的图像均为灰度图像,且已经根据字母类别进行了分类标注。此外,数据集的构建保证了样本的多样性和均衡性,适用于图像分类任务。
使用方法
使用pittawat/letter_recognition数据集时,用户可以直接从HuggingFace的仓库中下载。下载后,用户将拥有训练集和测试集的图像数据,可以将其用于机器学习模型的训练和评估。数据集的图像文件名包含了字母标签和样本索引,便于用户在数据处理时进行分类识别。用户需要确保使用的工具或平台支持图像输入,并根据实际需求对数据进行预处理。
背景与挑战
背景概述
在人工智能与机器学习领域,字符识别作为一项基础技术,对于图像处理与模式识别的研究具有重要的意义。pittawat/letter_recognition数据集,创建于对字符识别技术深入探索的需求之中,由研究者Pittawat Chitanmittrapark等设计并构建。该数据集旨在提供一个标准化的手写字母识别平台,包含了从A到Z共26个英文字母的手写样本,分为训练集与测试集两部分,共28600个样本,为相关领域的研究提供了宝贵的资源。该数据集自发布以来,已成为评估和比较不同字符识别算法性能的重要基准,对推动该领域技术的发展产生了积极的影响。
当前挑战
尽管pittawat/letter_recognition数据集为手写字母识别研究提供了良好的基础,但仍然面临一些挑战。首先,数据集样本量相对有限,可能无法充分涵盖手写变体的多样性,这限制了模型对于真实场景中手写体的泛化能力。其次,数据集构建过程中,图像的生成与存储需要解决数据增强、样本平衡以及图像质量保证等技术问题,以确保模型的训练效率和识别精度。此外,数据集的标注准确性也是一项挑战,错误的标注可能会导致模型学习到错误的知识,影响最终的应用效果。
常用场景
经典使用场景
在图像识别领域,pittawat/letter_recognition数据集被广泛用于手写字母识别的研究。该数据集包含了26个英文字母的手写样本,每个字母均有1000个训练样本和100个测试样本,共26000个训练样本和2600个测试样本,为研究人员提供了一个丰富的手写数据资源。
衍生相关工作
基于pittawat/letter_recognition数据集,研究者们开展了一系列相关工作,包括但不限于改进的图像识别算法、手写体识别的深度学习模型以及跨领域的迁移学习研究,这些工作进一步推动了手写识别技术的发展和应用范围的拓展。
数据集最近研究
最新研究方向
在图像分类领域,字符识别是基础且关键的研究方向。pittawat/letter_recognition数据集为此提供了手写英文字母的图像数据,其涵盖了从A到Z的所有字母,并分为训练集与测试集。当前,该数据集被广泛应用于深度学习模型的训练与评估中,特别是在探索字符识别的准确性、鲁棒性以及模型压缩等方面。近期研究聚焦于提升模型在复杂背景下的识别能力,以及结合迁移学习技术在多语言字符识别上的应用,这对智能文档分析、自动数据录入等领域产生了重要影响。
以上内容由遇见数据集搜集并总结生成



