HKR Dataset

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/abdoelsayed2016/HKR_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

HKR数据集是一个包含约95%俄语和5%哈萨克语的手写文本数据库，用于离线手写识别。该数据集由超过1400份填写表格组成，包含约63000个句子，超过715699个符号，由大约200名不同作者书写。数据集内容包括关键词、字母表和诗歌的手写样本。

The HKR dataset is a handwritten text database comprising approximately 95% Russian and 5% Kazakh languages, designed for offline handwriting recognition. This dataset consists of over 1,400 filled forms, encompassing about 63,000 sentences and more than 715,699 symbols, penned by approximately 200 different authors. The dataset includes handwritten samples of keywords, alphabets, and poetry.

创建时间：

2020-09-25

原始信息汇总

Handwritten Kazakh and Russian (HKR) Database for Text Recognition

Overview

Language Distribution: Approximately 95% Russian and 5% Kazakh words/sentences.
Usage: Non-commercial research purpose only.
Application Process: Researchers must fill in the Application Form and send it via email to nurseitovdb@gmail.com or Kairat.boss@gmail.com.

Dataset Details

Alphabet: Written in Cyrillic with 33 shared characters; Kazakh includes 9 additional specific characters.
Source: Generated by LaTeX and filled out by approximately 200 different writers.
Content:
- Handwritten samples of keywords in Kazakh and Russian (Areas, Cities, Village, etc.).
- Handwritten Kazakh and Russian alphabet in Cyrillic.
- Handwritten samples of poems in Russian.
Size: Over 1400 filled forms, approximately 63000 sentences, and more than 715699 symbols.

Dataset Split

Divided into Training, Validation, Test 1, and Test 2 folders.
Test1 contains unseen words; Test2 contains words seen by other writers.

Citation

When using the dataset, please cite the following papers:
- Nurseitov et al., 2021: Handwritten Kazakh and Russian (HKR) database for text recognition.
- Abdallah et al., 2020: Attention-Based Fully Gated CNN-BGRU for Russian Handwritten Text.
- Daniyar Nurseitov et al., 2020: Classification of Handwritten Names of Cities and Handwritten Text Recognition using Various Deep Learning Models.

Contact

For questions, contact Prof. Daniyar Nurseitov (nurseitovdb@gmail.com) or Dr. Kairat Bostanbekov (Kairat.boss@gmail.com).

搜集汇总

数据集介绍

构建方式

HKR数据集的构建基于手写体哈萨克语和俄语的文本识别需求，采用了LaTeX生成的表单模板，随后由约200名不同的书写者填写。这些表单涵盖了多种内容，包括关键词、字母表以及诗歌，总计超过1400份表单，包含约63000个句子和715699个符号。数据集的多样性体现在其包含了俄语和哈萨克语的33个共同字符以及哈萨克语特有的9个额外字符，确保了语言特征的全面覆盖。

特点

HKR数据集的显著特点在于其语言的多样性和书写者的广泛性。数据集不仅包含了俄语和哈萨克语的共同字符，还特别纳入了哈萨克语特有的字符，增强了语言识别的挑战性。此外，数据集的书写者来自不同背景，确保了手写风格的多样性，这对于提升文本识别模型的泛化能力至关重要。

使用方法

HKR数据集主要用于离线手写文本识别研究，特别适用于非商业用途。用户可以通过提供的链接下载数据集，并需填写申请表以获取使用权限。数据集已被划分为训练、验证、测试1和测试2四个部分，用户可根据需要使用Python代码进行数据分割。引用该数据集时，请遵循提供的文献引用格式，并可联系作者获取更多信息。

背景与挑战

背景概述

HKR数据集，全称为Handwritten Kazakh and Russian数据库，专注于离线手写文本识别领域。该数据集由Daniyar Nurseitov、Kairat Bostanbekov等研究人员创建，主要用于俄语和哈萨克语的手写文本识别研究。数据集包含了超过1400份手写填写的表格，涵盖约63000个句子和715699个符号，由约200名不同的书写者完成。该数据集的独特之处在于其包含了俄语和哈萨克语的特殊字符，尤其是哈萨克语的9个额外字符，这为手写文本识别技术带来了新的挑战和研究机会。HKR数据集的发布为手写文本识别领域的研究提供了宝贵的资源，尤其是在处理多语言和多字符系统方面。

当前挑战

HKR数据集在构建和应用过程中面临多项挑战。首先，数据集包含了俄语和哈萨克语两种语言，尤其是哈萨克语的特殊字符，这增加了字符识别的复杂性。其次，手写文本的多样性和书写风格的差异性使得文本分割和识别任务更加困难。此外，数据集的构建过程中需要处理大量的手写样本，确保样本的多样性和代表性，以提高模型的泛化能力。在应用层面，如何有效地利用该数据集训练模型，以应对不同书写者的风格变化和字符识别的准确性，是当前研究的主要挑战之一。

常用场景

经典使用场景

HKR数据集在离线手写文字识别领域中具有广泛的应用，尤其是在俄语和哈萨克语的手写文本识别任务中。该数据集包含了超过1400份手写填写的表格，涵盖了约63000个句子及715699个符号，由约200名不同的书写者完成。其经典使用场景包括对手写关键词、字母表以及诗歌的手写样本进行识别和分类，为手写文字识别算法的研究提供了丰富的数据支持。

实际应用

在实际应用中，HKR数据集被广泛用于开发和优化手写文字识别系统，这些系统可以应用于法律文件、历史文献的数字化、教育评估中的手写答案自动评分等领域。通过利用该数据集训练的模型，可以显著提高对手写俄语和哈萨克语文本的识别准确率，从而在文化遗产保护、教育技术等领域发挥重要作用。

衍生相关工作

基于HKR数据集，许多研究工作得以展开，其中包括对手写文字识别算法的改进和优化。例如，有研究者利用该数据集开发了基于注意力机制的全门控CNN-BGRU模型，显著提高了手写俄语文本的识别性能。此外，该数据集还促进了对手写城市名称和文本分类的深度学习模型的研究，推动了手写文字识别技术在多语言环境下的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集