Hoda Farsi Digit Dataset

github2024-04-17 更新2024-05-31 收录

下载链接：

https://github.com/amir-saniyan/HodaDatasetReader

下载链接

链接失效反馈

官方服务：

资源简介：

Hoda数据集是第一个手写波斯数字数据集，由Tarbiat Modarres大学的一个硕士项目开发，该项目名为：识别SANJESH注册表格中的波斯数字和字符。该项目与Hoda系统公司合作完成，于2005年夏季在Ehsanollah Kabir教授的监督下完成。数据集样本是从伊朗大学入学考试的约12000份注册表格中提取的手写字符。数据集规格如下：样本分辨率：200 dpi；总样本数：102,352个样本；训练样本：60,000个样本；测试样本：20,000个样本；剩余样本：22,352个样本。每个类别的样本数量不同。

The Hoda dataset is the first handwritten Persian numeral dataset, developed as part of a master's project at Tarbiat Modarres University. The project, titled 'Recognition of Persian Numerals and Characters in SANJESH Registration Forms,' was completed in collaboration with Hoda System Company under the supervision of Professor Ehsanollah Kabir during the summer of 2005. The dataset samples were extracted from approximately 12,000 registration forms of the Iranian university entrance examination. The specifications of the dataset are as follows: sample resolution: 200 dpi; total number of samples: 102,352; training samples: 60,000; test samples: 20,000; remaining samples: 22,352. The number of samples varies across different categories.

创建时间：

2018-03-07

原始信息汇总

Hoda Farsi Digit Dataset 概述

数据集基本信息

名称: Hoda Farsi Digit Dataset
描述: 该数据集是首个手写波斯数字数据集，由Tarbiat Modarres大学的一个硕士项目开发，项目名称为“Recognizing Farsi Digits and Characters in SANJESH Registration Forms”，与Hoda System Corporation合作完成。
开发时间: 2005年夏季
监督者: Prof. Ehsanollah Kabir

数据集规格

分辨率: 200 dpi
总样本数: 102,352
训练样本数: 60,000
测试样本数: 20,000
剩余样本数: 22,352

样本分布

数字	样本数
0	10070
1	10330
2	9923
3	10334
4	10333
5	10110
6	10254
7	10363
8	10264
9	10371

使用许可

许可: 免费提供给研究和非商业用途

数据集样本

样本多样性: 包含不同书写风格和质量的样本

数据集读取

文件格式: .cdb
读取代码示例: 提供了Python代码示例，用于读取训练、测试和剩余样本的图像和标签。

数据集网站

链接: http://farsiocr.ir/

搜集汇总

数据集介绍

构建方式

Hoda Farsi Digit Dataset的构建基于伊朗大学入学考试的12,000份注册表格，从中提取了手写波斯数字样本。该数据集由Tarbiat Modarres大学与Hoda系统公司合作开发，于2005年完成。数据集包含102,352个样本，分辨率为200 dpi，分为60,000个训练样本、20,000个测试样本和22,352个剩余样本。每个数字类别（0到9）的样本数量均衡，确保了数据集的多样性和代表性。

特点

Hoda Farsi Digit Dataset的显著特点在于其样本的多样性和高质量。数据集包含了不同书写风格和质量的样本，确保了模型在处理实际应用中的手写数字时具有鲁棒性。此外，数据集的样本数量庞大且类别均衡，适合用于深度学习和模式识别的研究。

使用方法

使用Hoda Farsi Digit Dataset时，可以通过提供的Python代码读取`.cdb`文件。代码支持将数据集读取为图像或数据集格式，用户可以选择是否进行重塑和是否使用one-hot编码。数据集的读取过程简单直观，适合用于训练和测试各种机器学习模型，尤其是手写数字识别任务。

背景与挑战

背景概述

Hoda Farsi Digit Dataset是首个专门针对手写波斯数字的数据集，由Tarbiat Modarres大学与Hoda System Corporation合作开发，完成于2005年夏季，由Ehsanollah Kabir教授监督。该数据集源自伊朗大学入学考试的约12000份注册表格，包含102,352个手写数字样本，分辨率为200 dpi。数据集分为60,000个训练样本、20,000个测试样本和22,352个剩余样本，每个数字类别的样本数量均衡。该数据集的创建旨在解决波斯手写数字识别问题，为相关领域的研究提供了宝贵的资源。

当前挑战

Hoda Farsi Digit Dataset在构建过程中面临了多个挑战。首先，手写波斯数字的多样性和书写风格的差异增加了识别的复杂性。其次，数据集的构建需要从大量注册表格中提取和处理手写数字，确保样本的质量和一致性。此外，由于波斯数字的独特形态，传统的数字识别算法可能无法直接适用，需要开发专门针对波斯数字的识别模型。这些挑战不仅推动了数据集的创建，也为后续的研究提出了更高的要求。

常用场景

经典使用场景

Hoda Farsi Digit Dataset 的经典使用场景主要集中在手写波斯数字的识别任务中。该数据集包含了从伊朗大学入学考试报名表中提取的102,352个手写波斯数字样本，分辨率为200 dpi。这些样本被划分为训练集（60,000个样本）、测试集（20,000个样本）和剩余样本（22,352个样本），适用于训练和评估手写数字识别模型。通过使用该数据集，研究者可以开发和测试各种机器学习算法，特别是深度学习模型，以提高手写波斯数字的识别准确率。

解决学术问题

Hoda Farsi Digit Dataset 解决了手写波斯数字识别中的关键学术问题，特别是在处理不同书写风格和质量的样本时。该数据集通过提供多样化的样本，帮助研究者开发能够适应不同书写习惯和图像质量的识别模型。这对于提高手写数字识别系统的鲁棒性和泛化能力具有重要意义，尤其是在多语言和多文化背景下的应用场景中。此外，该数据集还为研究者提供了一个标准化的基准，用于比较不同算法在手写波斯数字识别任务中的性能。

衍生相关工作

Hoda Farsi Digit Dataset 的发布激发了许多相关研究工作，特别是在手写数字识别和多语言文字识别领域。基于该数据集，研究者们开发了多种深度学习模型，如卷积神经网络（CNN）和循环神经网络（RNN），以提高识别精度。此外，该数据集还被用于研究手写数字的多样性和变异性，探索不同书写风格对识别性能的影响。这些研究不仅推动了手写数字识别技术的发展，还为其他语言的手写文字识别提供了宝贵的经验和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集