KHAMIS
收藏arXiv2024-08-25 更新2024-08-28 收录
下载链接:
http://arxiv.org/abs/2408.13631v1
下载链接
链接失效反馈官方服务:
资源简介:
KHAMIS数据集由库尔德斯坦大学的计算机科学系创建,专注于东叙利亚语的手写文本识别。该数据集包含624条手写句子,由31名大学生和一名教授提供,旨在用于开发东叙利亚语的光学字符识别(OCR)模型。数据集的创建过程涉及从志愿者中收集手写样本,并通过预处理步骤提高数据质量。KHAMIS数据集的应用领域包括文化研究、历史研究和日常任务的自动化,旨在解决东叙利亚语这种低资源语言的数字化和自动化识别问题。
The KHAMIS dataset was created by the Department of Computer Science at the University of Kurdistan, focusing on handwritten text recognition for Eastern Syriac. It comprises 624 handwritten sentences contributed by 31 undergraduate students and one professor, and is developed for building optical character recognition (OCR) models tailored to Eastern Syriac. The dataset creation process involves collecting handwritten samples from volunteers and applying preprocessing steps to improve data quality. Application scenarios of the KHAMIS dataset cover cultural research, historical research, and automation of daily tasks, with the objective of addressing the digitalization and automated recognition challenges faced by low-resource languages such as Eastern Syriac.
提供机构:
计算机科学系,库尔德斯坦大学
创建时间:
2024-08-25
搜集汇总
数据集介绍

构建方式
KHAMIS数据集的构建是通过招募能够读写东叙利亚文字的志愿者来完成的。这些志愿者被提供了包含20个句子的模板,每个句子下方都有一个边界框,志愿者在边界框内填写指定区域的书写内容。收集到的手写句子随后被扫描并进行了预处理,包括提取边界框、去噪、转换为灰度图像以及进行二值化。最终,KHAMIS数据集包含了624个手写叙利亚句子图像样本,每个图像样本都附带一个包含其真实文本值的文本文件。
使用方法
KHAMIS数据集的使用方法主要涉及将其用于训练和评估光学字符识别模型。由于叙利亚语言资源有限,KHAMIS数据集被用于微调Tesseract-OCR引擎的预训练叙利亚模型,以提高手写文本的识别准确率。在使用数据集时,研究人员首先对图像进行预处理,然后使用Tesseract的Tesstrain工具进行模型训练。训练过程中,数据集被分为训练集和评估集,以避免过拟合。评估模型性能时,主要使用字符错误率(CER)和单词错误率(WER)作为指标。KHAMIS数据集的使用有助于提高叙利亚手写文本的数字化水平,并推动相关学术研究和文化遗产保护工作的开展。
背景与挑战
背景概述
Syriac, an ancient and endangered Semitic language, holds significant historical and cultural value. Recognizing the importance of preserving this language, a research project was initiated to develop an Optical Character Recognition (OCR) model specifically for handwritten Syriac texts. A dataset named KHAMIS was created, inspired by the East Syriac poet Khamis bar Qardahe. KHAMIS consists of 624 handwritten Syriac sentences collected from volunteers proficient in the language. This dataset was used to fine-tune the Tesseract-OCR engine's pretrained Syriac model on handwritten data, aiming to enhance the accuracy of OCR models for this low-resourced language. The KHAMIS dataset and the resulting OCR model contribute to the digitization of ancient manuscripts and provide a stepping stone for developing more digital services for Syriac.
当前挑战
The primary challenge in developing an OCR model for handwritten Syriac is the low availability of digital resources and the endangered status of the language. The KHAMIS dataset addresses this challenge by providing a valuable resource for training OCR models on handwritten Syriac texts. Additionally, the dataset's limited size, consisting of 624 sentences, poses a challenge in terms of model generalization and accuracy. Another challenge is the absence of diacritics in the dataset, which are crucial for accurate word recognition in Syriac. Moreover, the dataset only covers the East Syriac script, excluding the Estrangela and West Syriac scripts, limiting the model's applicability to different Syriac writing systems. To overcome these challenges, future research should focus on expanding the dataset size, incorporating diacritics, and training models on multiple Syriac scripts to enhance the accuracy and versatility of OCR models for Syriac.
常用场景
经典使用场景
KHAMIS数据集主要用于研究和开发针对东叙利亚文手写文本的光学字符识别(OCR)模型。通过创建该数据集,研究者们旨在提高对这一古老、濒危且低资源语言的数字化服务能力。该数据集的建立为开发能够自动识别和转换手写东叙利亚文文本的OCR模型提供了宝贵的资源。
解决学术问题
KHAMIS数据集解决了东叙利亚文手写文本数字化过程中的关键问题。由于东叙利亚文是一种濒危的低资源语言,其手写文本的数字化面临着技术上的挑战。KHAMIS数据集的创建填补了这一研究领域的空白,为开发高效的OCR模型提供了必要的数据基础,从而促进了东叙利亚文文本的数字化和文化遗产的保护。
实际应用
KHAMIS数据集的实际应用场景包括但不限于历史研究、文化遗产保护、语言学习和教育。通过利用该数据集,研究者们可以开发出更精确的OCR模型,从而实现对手写东叙利亚文文本的自动识别和转换。这对于历史研究者来说,可以大大提高对古代文献的研究效率;对于文化遗产保护者来说,有助于保存和传播东叙利亚文的文化遗产;对于语言学习者来说,可以提供更便捷的学习资源。
数据集最近研究
最新研究方向
KHAMIS数据集的最新研究方向主要集中在开发基于手写东叙利亚文文本的光学字符识别(OCR)模型,并以此为基础构建更多数字服务以保护和促进这种濒危语言的传承。该数据集由志愿者收集的手写东叙利亚文句子组成,用于微调Tesseract-OCR引擎的预训练叙利亚文模型。研究结果表明,微调后的模型在字符错误率方面取得了显著提升,相较于Tesseract的默认叙利亚文模型,其错误率降低了近一半。未来,研究将着重于收集更多数据以进一步提高模型准确性,同时探索对其他叙利亚文书写系统的识别,并考虑将变音符号纳入数据集中。此外,研究还建议尝试不同的算法和训练参数,以期开发出更加准确和通用的叙利亚文OCR模型。
相关研究论文
- 1Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset计算机科学系,库尔德斯坦大学 · 2024年
以上内容由遇见数据集搜集并总结生成



