Hoda Farsi Digit Dataset

github2020-05-15 更新2024-05-31 收录

下载链接：

https://github.com/zahrabashir98/HodaDatasetReader

下载链接

链接失效反馈

官方服务：

资源简介：

Hoda数据集是首个手写波斯数字数据集，由Tarbiat Modarres大学的一个硕士项目开发，用于识别SANJESH注册表格中的波斯数字和字符。该数据集包含约12000份伊朗大学入学考试注册表格中提取的手写样本，总计102,352个样本，分辨率为200 dpi。

The Hoda dataset is the first handwritten Persian numeral dataset, developed by a master's project at Tarbiat Modarres University, aimed at recognizing Persian numerals and characters in SANJESH registration forms. This dataset comprises approximately 12,000 handwritten samples extracted from Iranian university entrance exam registration forms, totaling 102,352 samples with a resolution of 200 dpi.

创建时间：

2019-05-10

原始信息汇总

Hoda Farsi Digit Dataset 概述

数据集基本信息

名称: Hoda Farsi Digit Dataset
开发背景: 该数据集是在Tarbiat Modarres大学的一个MSc.项目中开发的，项目名为“Recognizing Farsi Digits and Characters in SANJESH Registration Forms”，并与Hoda System Corporation合作完成。
完成时间: 2005年夏季
监督: Prof. Ehsanollah Kabir

数据集特征

分辨率: 200 dpi
样本总数: 102,352
训练样本: 60,000
测试样本: 20,000
剩余样本: 22,352

样本分布

每个类别的样本数:
- 0: 10070
- 1: 10330
- 2: 9923
- 3: 10334
- 4: 10333
- 5: 10110
- 6: 10254
- 7: 10363
- 8: 10264
- 9: 10371

数据集使用许可

许可: 免费提供给研究目的和非商业用途。

数据集样本

样本多样性: 数据集包含不同书写风格和质量的样本。

数据集读取

读取方式: 使用Python代码通过HodaDatasetReader库读取.cdb文件。
示例代码: 提供了读取训练集、测试集和剩余样本集的Python代码示例。

数据集引用

相关论文: Introducing a very large dataset of handwritten Farsi digits and a study on their varieties

搜集汇总

数据集介绍

构建方式

Hoda Farsi Digit Dataset 是在伊朗大学入学考试注册表中提取的手写数字字符组成的第一个数据集，创建于Tarbiat Modarres大学的一项硕士项目中。该数据集包含约12000份注册表的样本，经过筛选和处理，形成了共计102,352个样本。数据集构建过程中，特别关注样本的质量和多样性，确保涵盖不同书写风格和质量，以适应机器学习模型训练的需要。

特点

该数据集的特点在于其包含的手写数字样本具有高度的真实性和多样性。样本分辨率统一为200 dpi，且每个数字类别的样本数量均衡。数据集免费提供给研究者和非商业用途，对于研究波斯数字识别具有极高的参考价值。此外，数据集的构建考虑了不同书写风格和质量的变化，为模型训练提供了丰富的学习素材。

使用方法

使用Hoda Farsi Digit Dataset时，用户可通过提供的Python代码片段读取`.cdb`格式的图像文件，转换为图像数组形式。数据集分为训练集、测试集和剩余样本集，用户可以根据需求选择合适的集进行读取。此外，数据集提供了样本的标签，方便用户进行监督学习任务。在使用前，需确保安装了Python 3、numpy、python-opencv和matplotlib等依赖库。

背景与挑战

背景概述

Hoda Farsi Digit Dataset 是首个手写波斯数字的数据集，开发于塔比阿特莫达勒斯大学（Tarbiat Modarres University）一个名为 '在SANJESH注册表中识别波斯数字和字符' 的硕士项目。该项目由Hoda系统公司协作完成，并于2005年夏季在Ehsanollah Kabir教授的指导下结束。该数据集包含了从约12000份伊朗大学入学考试注册表中提取的手写字符样本，旨在促进波斯数字识别研究，对相关领域产生了重要影响。

当前挑战

该数据集在构建过程中遇到的挑战包括：确保数据样本的多样性和代表性，以及高分辨率样本的处理和存储。研究领域问题方面的挑战则集中在波斯数字的手写变体识别上，这要求算法能够处理和识别具有不同书写风格和质量的手写数字。

常用场景

经典使用场景

Hoda Farsi Digit Dataset作为首个手写波斯数字数据集，其经典使用场景主要集中于手写数字识别领域，尤其是针对波斯数字字符的识别与分类研究。研究者可借此数据集训练机器学习模型，以实现对波斯数字的高精度识别。

解决学术问题

该数据集解决了波斯数字识别中样本数量不足、多样性不足等问题，为学术界提供了丰富的样本资源。通过该数据集，研究者能够更好地分析和理解手写波斯数字的变异性和复杂性，从而推动相关领域的学术研究进展。

衍生相关工作

基于该数据集，衍生出了众多相关工作，包括但不限于波斯数字识别算法的研究、手写数字识别技术的改进、以及波斯文字符识别系统的开发等，这些工作进一步拓宽了计算机视觉和自然语言处理领域的研究范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集