KOHTD

Name: KOHTD
Creator: 阿尔-法拉比哈萨克国立大学
Published: 2021-09-23 00:19:38
License: 暂无描述

arXiv2021-09-23 更新2024-06-21 收录

下载链接：

https://github.com/abdoelsayed2016/KOHTD

下载链接

链接失效反馈

官方服务：

资源简介：

KOHTD（Kazakh Offline Handwritten Text Dataset）是由阿尔-法拉比哈萨克国立大学和Satbayev大学合作创建的一个大型手写文本数据集，专门用于哈萨克语的手写文本识别研究。该数据集包含3000份手写考试卷，总计超过140,335张分割图像和约922,010个符号。数据集的创建过程涉及扫描、预处理、分割和标注等多个步骤，确保了数据的质量和可用性。KOHTD数据集主要用于深度学习和机器学习领域的研究，特别是在手写文本识别任务中，为算法性能的评估和比较提供了标准化的数据资源。

KOHTD (Kazakh Offline Handwritten Text Dataset) is a large-scale handwritten text dataset jointly created by Al-Farabi Kazakh National University and Satbayev University, specifically dedicated to handwritten text recognition research for the Kazakh language. This dataset contains 3000 handwritten exam papers, totaling over 140,335 segmented images and approximately 922,010 symbols. The creation process of the KOHTD dataset involves multiple steps such as scanning, preprocessing, segmentation and annotation, which ensures the data quality and usability. The KOHTD dataset is mainly used for research in the fields of deep learning and machine learning, especially in handwritten text recognition tasks, providing standardized data resources for the evaluation and comparison of algorithm performance.

提供机构：

阿尔-法拉比哈萨克国立大学

创建时间：

2021-09-23

搜集汇总

数据集介绍

构建方式

在数字信息交换日益普及的当下，手写文档如考试答卷、备忘录等仍不可或缺，这催生了对手写文本识别（HTR）技术的迫切需求。针对哈萨克语手写文本数据集匮乏的现状，KOHTD数据集应运而生。该数据集由来自Satbayev大学和Al-Farabi哈萨克国立大学的3000余份学生考试答卷构成，其中99%为哈萨克语，1%为俄语。收集后的纸质文档以300 dpi分辨率、24位色深扫描为数字图像，随后经过预处理、行分割与词分割等步骤，最终生成超过14万张分割后的图像，包含约92.2万个字符符号。为保障标注质量，研究团队开发了Telegram机器人，将分割图像随机分发给643名志愿者进行双重标注，并利用Levenshtein距离与已训练的神经网络模型进行交叉验证，确保标注的准确性与可靠性。

特点

KOHTD数据集的核心特点在于其规模宏大、语种稀缺且多样性显著。作为首个公开的哈萨克语离线手写文本数据集，它填补了该语言在手写识别领域的数据空白。数据集涵盖约1000种不同的书写风格，真实反映了学生群体在考试场景下的自然手写变体，包括字母形状、大小、倾斜度以及纸张噪声等复杂因素。此外，数据集被划分为训练集（70%）、验证集（15%）和测试集（15%），便于进行标准化的模型评估。词级与行级分割后的图像为深度学习模型提供了丰富的训练素材，其字符、单词及N-gram统计信息表明数据集具有良好的词汇覆盖度，能够有效支撑手写识别算法的泛化能力测试。

使用方法

KOHTD数据集专为基于深度学习和机器学习的手写文本识别研究而设计，可广泛应用于词级与行级识别任务。研究者可直接使用数据集中的分割图像及其对应的JSON格式标注文件，训练基于CTC或注意力机制的循环神经网络（RNN）模型，如Bluche、Puigcerver、Flor及Abdallah等经典架构。数据集提供了明确的训练、验证与测试划分，便于复现论文中的基准实验。此外，研究团队还开源了基于遗传算法的行与词分割代码，方便用户对原始扫描文档进行自定义分割处理。数据集与代码均可在GitHub仓库中获取，支持后续研究者在哈萨克语手写识别领域开展更深入的探索与性能对比。

背景与挑战

背景概述

KOHTD（Kazakh Offline Handwritten Text Dataset）是由哈萨克斯坦阿尔法拉比国立大学与萨特巴耶夫大学等机构的研究人员于2021年共同创建的大规模哈萨克语离线手写文本数据集。该数据集旨在填补哈萨克语手写文本识别领域缺乏公开基准数据集的空白，核心研究问题聚焦于利用深度学习方法实现哈萨克语手写文本的自动识别。数据集包含3000份手写考试答卷，经过分割后获得超过14万张图像，涵盖约92万个字符，为手写识别研究提供了丰富的语料资源。KOHTD的发布显著推动了中亚语言文档分析与识别领域的发展，成为评估和比较手写文本识别算法性能的重要基准。

当前挑战

该数据集面临的核心挑战包括：首先，哈萨克语手写文本识别需应对书写风格的无限多样性，包括字母形态的变异、连笔与倾斜角度差异，以及个体书写习惯带来的识别困难。其次，在数据构建过程中，文本分割是重大难题，尤其是行与词的分割易受噪声、纸张缺陷和手写重叠影响，为此研究者提出基于遗传算法的分割方法以优化边界定位。此外，标注质量的控制亦构成挑战，众包标注中用户不认真或错误标注的问题需通过神经网络辅助验证与莱文斯坦距离计算来缓解。最后，数据集的语言特性（如相似字母如“ң”与“қ”的混淆）进一步增加了识别难度。

常用场景

经典使用场景

在文档分析与识别领域，KOHTD数据集为哈萨克语离线手写文本识别提供了首个大规模、标准化的评测基准。该数据集包含3000余份手写考卷，经精细分割后生成超过14万张单词与行级图像，涵盖约92万个字符，其丰富的书写风格与多样化的文本内容，使得研究者能够系统性地训练和评估基于深度学习的手写识别模型。经典的使用场景包括利用卷积循环神经网络（CRNN）结合连接主义时间分类（CTC）或注意力机制，对单词与行级别的手写文本进行端到端识别，从而推动低资源语言手写识别技术的进步。

实际应用

在实际应用中，KOHTD数据集赋能了哈萨克语手写文档的自动化转录系统，可广泛应用于教育场景中考试答卷的批量数字化与评分、行政机构中手写表格与问卷的信息提取，以及历史手稿的电子化归档。基于该数据集训练的识别模型能够有效处理不同书写风格带来的变异性，显著提升光学字符识别（OCR）系统对复杂手写文本的鲁棒性。此外，该数据集还可服务于移动端手写输入法的研发、智能笔迹识别系统的优化，以及多语言文档管理平台中手写内容的语义理解，具有显著的社会与经济价值。

衍生相关工作

KOHTD数据集的诞生催生了一系列具有影响力的衍生研究工作。一方面，研究者基于该数据集提出了针对哈萨克语手写文本分割的遗传算法（GA），通过随机参数枚举优化行与单词的边界定位，提升了预处理阶段的准确性。另一方面，该数据集被用于对比多种先进识别模型，如Flor提出的Gated-CNN-BGRU架构在KOHTD上取得了最低的6.52% CER，而Abdallah等人提出的注意力增强型全卷积门控循环网络则在词错误率上表现优异。这些工作不仅验证了不同深度学习范式在低资源语言上的迁移能力，也为后续结合语言模型与数据增强技术的混合识别系统提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集