pittawat/letter_recognition

Name: pittawat/letter_recognition
Creator: pittawat
Published: 2023-03-21 06:15:35
License: 暂无描述

Hugging Face2023-03-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pittawat/letter_recognition

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: image - name: label dtype: class_label: names: '0': A '1': B '2': C '3': D '4': E '5': F '6': G '7': H '8': I '9': J '10': K '11': L '12': M '13': 'N' '14': O '15': P '16': Q '17': R '18': S '19': T '20': U '21': V '22': W '23': X '24': 'Y' '25': Z splits: - name: train num_bytes: 22453522 num_examples: 26000 - name: test num_bytes: 2244964.8 num_examples: 2600 download_size: 8149945 dataset_size: 24698486.8 task_categories: - image-classification language: - en size_categories: - 1K<n<10K --- # Dataset Card for "letter_recognition" Images in this dataset was generated using the script defined below. The original dataset in CSV format and more information of the original dataset is available at [A-Z Handwritten Alphabets in .csv format](https://www.kaggle.com/datasets/sachinpatel21/az-handwritten-alphabets-in-csv-format). ```python import os import pandas as pd import matplotlib.pyplot as plt CHARACTER_COUNT = 26 data = pd.read_csv('./A_Z Handwritten Data.csv') mapping = {str(i): chr(i+65) for i in range(26)} def generate_dataset(folder, end, start=0): if not os.path.exists(folder): os.makedirs(folder) print(f"The folder '{folder}' has been created successfully!") else: print(f"The folder '{folder}' already exists.") for i in range(CHARACTER_COUNT): dd = data[data['0']==i] for j in range(start, end): ddd = dd.iloc[j] x = ddd[1:].values x = x.reshape((28, 28)) plt.axis('off') plt.imsave(f'{folder}/{mapping[str(i)]}_{j}.jpg', x, cmap='binary') generate_dataset('./train', 1000) generate_dataset('./test', 1100, 1000) ```

### 数据集信息 #### 特征字段 1. **image（图像）**：数据类型为图像类型 2. **label（标签）**：数据类型为类别标签（class_label），类别名称映射关系如下： - 0: A - 1: B - 2: C - 3: D - 4: E - 5: F - 6: G - 7: H - 8: I - 9: J - 10: K - 11: L - 12: M - 13: N - 14: O - 15: P - 16: Q - 17: R - 18: S - 19: T - 20: U - 21: V - 22: W - 23: X - 24: Y - 25: Z #### 数据划分 1. 训练集（train）：占用字节数22453522，样本总量26000 2. 测试集（test）：占用字节数2244964.8，样本总量2600 #### 全局统计下载大小：8149945 字节；总数据集大小：24698486.8 字节 #### 任务与属性任务类别：图像分类（image-classification）；语言：英语（en）；样本量范围：1K < n < 10K --- # 「字母识别」数据集卡片本数据集的图像通过下述脚本生成。原始数据集为CSV格式，更多相关信息可参阅[A-Z手写字母CSV数据集](https://www.kaggle.com/datasets/sachinpatel21/az-handwritten-alphabets-in-csv-format)。 python import os import pandas as pd import matplotlib.pyplot as plt # 设定字符总数为26 CHARACTER_COUNT = 26 # 读取原始CSV格式数据集 data = pd.read_csv('./A_Z Handwritten Data.csv') # 构建数字索引到大写字母的映射字典：0→A，1→B，依此类推至25→Z mapping = {str(i): chr(i+65) for i in range(26)} def generate_dataset(folder, end, start=0): """生成指定字母类别的图像数据集并保存至目标文件夹""" if not os.path.exists(folder): os.makedirs(folder) print(f"文件夹'{folder}'已成功创建！") else: print(f"文件夹'{folder}'已存在。") # 遍历全部26个字母类别 for i in range(CHARACTER_COUNT): # 筛选出当前类别对应的所有样本 dd = data[data['0'] == i] # 遍历指定索引范围内的样本 for j in range(start, end): # 获取当前样本的像素数据（排除首列的标签列） ddd = dd.iloc[j] x = ddd[1:].values # 将一维像素数组重塑为28×28的二维图像矩阵 x = x.reshape((28, 28)) # 关闭图像坐标轴 plt.axis('off') # 以二进制灰度模式保存图像，命名格式为「{文件夹路径}/{字母}_{索引}.jpg」 plt.imsave(f'{folder}/{mapping[str(i)]}_{j}.jpg', x, cmap='binary') # 生成训练集：每个字母选取前1000个样本，总计26×1000=26000个样本 generate_dataset('./train', 1000) # 生成测试集：每个字母选取索引1000至1100的样本，总计26×100=2600个样本 generate_dataset('./test', 1100, 1000)

提供机构：

pittawat

原始信息汇总

数据集概述

数据集名称

名称: letter_recognition

数据集特征

特征:
- image: 图像数据
- label: 类别标签，包含26个类别，分别对应从A到Z的字母

数据集划分

训练集:
- 样本数量: 26000
- 存储大小: 22453522字节
测试集:
- 样本数量: 2600
- 存储大小: 2244964.8字节

数据集大小

下载大小: 8149945字节
数据集总大小: 24698486.8字节

任务类别

任务: 图像分类

语言

语言: 英语

大小类别

大小范围: 1K<n<10K

搜集汇总

数据集介绍

构建方式

pittawat/letter_recognition数据集的构建是通过从CSV格式的原始数据集中读取手写字母数据，并将这些数据转换为图像格式。具体而言，数据集的构建脚本首先读取包含26个英文字母手写数据的数据集，然后通过遍历数据集中的每一个样本，将其转换为一个28x28像素的图像，并按照字母类别存储到相应的文件夹中，分为训练集和测试集两部分。

特点

该数据集的主要特点是包含26个英文字母的手写图像，每个字母都有1000个训练样本和100个测试样本，总计26000个训练样本和2600个测试样本。数据集的图像均为灰度图像，且已经根据字母类别进行了分类标注。此外，数据集的构建保证了样本的多样性和均衡性，适用于图像分类任务。

使用方法

使用pittawat/letter_recognition数据集时，用户可以直接从HuggingFace的仓库中下载。下载后，用户将拥有训练集和测试集的图像数据，可以将其用于机器学习模型的训练和评估。数据集的图像文件名包含了字母标签和样本索引，便于用户在数据处理时进行分类识别。用户需要确保使用的工具或平台支持图像输入，并根据实际需求对数据进行预处理。

背景与挑战

背景概述

在人工智能与机器学习领域，字符识别作为一项基础技术，对于图像处理与模式识别的研究具有重要的意义。pittawat/letter_recognition数据集，创建于对字符识别技术深入探索的需求之中，由研究者Pittawat Chitanmittrapark等设计并构建。该数据集旨在提供一个标准化的手写字母识别平台，包含了从A到Z共26个英文字母的手写样本，分为训练集与测试集两部分，共28600个样本，为相关领域的研究提供了宝贵的资源。该数据集自发布以来，已成为评估和比较不同字符识别算法性能的重要基准，对推动该领域技术的发展产生了积极的影响。

当前挑战

尽管pittawat/letter_recognition数据集为手写字母识别研究提供了良好的基础，但仍然面临一些挑战。首先，数据集样本量相对有限，可能无法充分涵盖手写变体的多样性，这限制了模型对于真实场景中手写体的泛化能力。其次，数据集构建过程中，图像的生成与存储需要解决数据增强、样本平衡以及图像质量保证等技术问题，以确保模型的训练效率和识别精度。此外，数据集的标注准确性也是一项挑战，错误的标注可能会导致模型学习到错误的知识，影响最终的应用效果。

常用场景

经典使用场景

在图像识别领域，pittawat/letter_recognition数据集被广泛用于手写字母识别的研究。该数据集包含了26个英文字母的手写样本，每个字母均有1000个训练样本和100个测试样本，共26000个训练样本和2600个测试样本，为研究人员提供了一个丰富的手写数据资源。

衍生相关工作

基于pittawat/letter_recognition数据集，研究者们开展了一系列相关工作，包括但不限于改进的图像识别算法、手写体识别的深度学习模型以及跨领域的迁移学习研究，这些工作进一步推动了手写识别技术的发展和应用范围的拓展。

数据集最近研究