five

pittawat/letter_recognition

收藏
Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pittawat/letter_recognition
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: image dtype: image - name: label dtype: class_label: names: '0': A '1': B '2': C '3': D '4': E '5': F '6': G '7': H '8': I '9': J '10': K '11': L '12': M '13': 'N' '14': O '15': P '16': Q '17': R '18': S '19': T '20': U '21': V '22': W '23': X '24': 'Y' '25': Z splits: - name: train num_bytes: 22453522 num_examples: 26000 - name: test num_bytes: 2244964.8 num_examples: 2600 download_size: 8149945 dataset_size: 24698486.8 task_categories: - image-classification language: - en size_categories: - 1K<n<10K --- # Dataset Card for "letter_recognition" Images in this dataset was generated using the script defined below. The original dataset in CSV format and more information of the original dataset is available at [A-Z Handwritten Alphabets in .csv format](https://www.kaggle.com/datasets/sachinpatel21/az-handwritten-alphabets-in-csv-format). ```python import os import pandas as pd import matplotlib.pyplot as plt CHARACTER_COUNT = 26 data = pd.read_csv('./A_Z Handwritten Data.csv') mapping = {str(i): chr(i+65) for i in range(26)} def generate_dataset(folder, end, start=0): if not os.path.exists(folder): os.makedirs(folder) print(f"The folder '{folder}' has been created successfully!") else: print(f"The folder '{folder}' already exists.") for i in range(CHARACTER_COUNT): dd = data[data['0']==i] for j in range(start, end): ddd = dd.iloc[j] x = ddd[1:].values x = x.reshape((28, 28)) plt.axis('off') plt.imsave(f'{folder}/{mapping[str(i)]}_{j}.jpg', x, cmap='binary') generate_dataset('./train', 1000) generate_dataset('./test', 1100, 1000) ```

### 数据集信息 #### 特征字段 1. **image(图像)**:数据类型为图像类型 2. **label(标签)**:数据类型为类别标签(class_label),类别名称映射关系如下: - 0: A - 1: B - 2: C - 3: D - 4: E - 5: F - 6: G - 7: H - 8: I - 9: J - 10: K - 11: L - 12: M - 13: N - 14: O - 15: P - 16: Q - 17: R - 18: S - 19: T - 20: U - 21: V - 22: W - 23: X - 24: Y - 25: Z #### 数据划分 1. 训练集(train):占用字节数22453522,样本总量26000 2. 测试集(test):占用字节数2244964.8,样本总量2600 #### 全局统计 下载大小:8149945 字节;总数据集大小:24698486.8 字节 #### 任务与属性 任务类别:图像分类(image-classification);语言:英语(en);样本量范围:1K < n < 10K --- # 「字母识别」数据集卡片 本数据集的图像通过下述脚本生成。原始数据集为CSV格式,更多相关信息可参阅[A-Z手写字母CSV数据集](https://www.kaggle.com/datasets/sachinpatel21/az-handwritten-alphabets-in-csv-format)。 python import os import pandas as pd import matplotlib.pyplot as plt # 设定字符总数为26 CHARACTER_COUNT = 26 # 读取原始CSV格式数据集 data = pd.read_csv('./A_Z Handwritten Data.csv') # 构建数字索引到大写字母的映射字典:0→A,1→B,依此类推至25→Z mapping = {str(i): chr(i+65) for i in range(26)} def generate_dataset(folder, end, start=0): """生成指定字母类别的图像数据集并保存至目标文件夹""" if not os.path.exists(folder): os.makedirs(folder) print(f"文件夹'{folder}'已成功创建!") else: print(f"文件夹'{folder}'已存在。") # 遍历全部26个字母类别 for i in range(CHARACTER_COUNT): # 筛选出当前类别对应的所有样本 dd = data[data['0'] == i] # 遍历指定索引范围内的样本 for j in range(start, end): # 获取当前样本的像素数据(排除首列的标签列) ddd = dd.iloc[j] x = ddd[1:].values # 将一维像素数组重塑为28×28的二维图像矩阵 x = x.reshape((28, 28)) # 关闭图像坐标轴 plt.axis('off') # 以二进制灰度模式保存图像,命名格式为「{文件夹路径}/{字母}_{索引}.jpg」 plt.imsave(f'{folder}/{mapping[str(i)]}_{j}.jpg', x, cmap='binary') # 生成训练集:每个字母选取前1000个样本,总计26×1000=26000个样本 generate_dataset('./train', 1000) # 生成测试集:每个字母选取索引1000至1100的样本,总计26×100=2600个样本 generate_dataset('./test', 1100, 1000)
提供机构:
pittawat
原始信息汇总

数据集概述

数据集名称

  • 名称: letter_recognition

数据集特征

  • 特征:
    • image: 图像数据
    • label: 类别标签,包含26个类别,分别对应从A到Z的字母

数据集划分

  • 训练集:
    • 样本数量: 26000
    • 存储大小: 22453522字节
  • 测试集:
    • 样本数量: 2600
    • 存储大小: 2244964.8字节

数据集大小

  • 下载大小: 8149945字节
  • 数据集总大小: 24698486.8字节

任务类别

  • 任务: 图像分类

语言

  • 语言: 英语

大小类别

  • 大小范围: 1K<n<10K
搜集汇总
数据集介绍
main_image_url
构建方式
pittawat/letter_recognition数据集的构建是通过从CSV格式的原始数据集中读取手写字母数据,并将这些数据转换为图像格式。具体而言,数据集的构建脚本首先读取包含26个英文字母手写数据的数据集,然后通过遍历数据集中的每一个样本,将其转换为一个28x28像素的图像,并按照字母类别存储到相应的文件夹中,分为训练集和测试集两部分。
特点
该数据集的主要特点是包含26个英文字母的手写图像,每个字母都有1000个训练样本和100个测试样本,总计26000个训练样本和2600个测试样本。数据集的图像均为灰度图像,且已经根据字母类别进行了分类标注。此外,数据集的构建保证了样本的多样性和均衡性,适用于图像分类任务。
使用方法
使用pittawat/letter_recognition数据集时,用户可以直接从HuggingFace的仓库中下载。下载后,用户将拥有训练集和测试集的图像数据,可以将其用于机器学习模型的训练和评估。数据集的图像文件名包含了字母标签和样本索引,便于用户在数据处理时进行分类识别。用户需要确保使用的工具或平台支持图像输入,并根据实际需求对数据进行预处理。
背景与挑战
背景概述
在人工智能与机器学习领域,字符识别作为一项基础技术,对于图像处理与模式识别的研究具有重要的意义。pittawat/letter_recognition数据集,创建于对字符识别技术深入探索的需求之中,由研究者Pittawat Chitanmittrapark等设计并构建。该数据集旨在提供一个标准化的手写字母识别平台,包含了从A到Z共26个英文字母的手写样本,分为训练集与测试集两部分,共28600个样本,为相关领域的研究提供了宝贵的资源。该数据集自发布以来,已成为评估和比较不同字符识别算法性能的重要基准,对推动该领域技术的发展产生了积极的影响。
当前挑战
尽管pittawat/letter_recognition数据集为手写字母识别研究提供了良好的基础,但仍然面临一些挑战。首先,数据集样本量相对有限,可能无法充分涵盖手写变体的多样性,这限制了模型对于真实场景中手写体的泛化能力。其次,数据集构建过程中,图像的生成与存储需要解决数据增强、样本平衡以及图像质量保证等技术问题,以确保模型的训练效率和识别精度。此外,数据集的标注准确性也是一项挑战,错误的标注可能会导致模型学习到错误的知识,影响最终的应用效果。
常用场景
经典使用场景
在图像识别领域,pittawat/letter_recognition数据集被广泛用于手写字母识别的研究。该数据集包含了26个英文字母的手写样本,每个字母均有1000个训练样本和100个测试样本,共26000个训练样本和2600个测试样本,为研究人员提供了一个丰富的手写数据资源。
衍生相关工作
基于pittawat/letter_recognition数据集,研究者们开展了一系列相关工作,包括但不限于改进的图像识别算法、手写体识别的深度学习模型以及跨领域的迁移学习研究,这些工作进一步推动了手写识别技术的发展和应用范围的拓展。
数据集最近研究
最新研究方向
在图像分类领域,字符识别是基础且关键的研究方向。pittawat/letter_recognition数据集为此提供了手写英文字母的图像数据,其涵盖了从A到Z的所有字母,并分为训练集与测试集。当前,该数据集被广泛应用于深度学习模型的训练与评估中,特别是在探索字符识别的准确性、鲁棒性以及模型压缩等方面。近期研究聚焦于提升模型在复杂背景下的识别能力,以及结合迁移学习技术在多语言字符识别上的应用,这对智能文档分析、自动数据录入等领域产生了重要影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作