Tamizhi-Net-OCR Dataset
收藏github2022-12-08 更新2024-05-31 收录
下载链接:
https://github.com/aaivu/Tamizhi-Net-OCR
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练和评估Tamizhi-Net-OCR项目中的OCR引擎,包含了多种泰米尔和僧伽罗遗产字体的文本数据,用于创建泰米尔-僧伽罗-英语的平行语料库。
This dataset is utilized for training and evaluating the OCR engine within the Tamizhi-Net-OCR project. It encompasses a diverse array of text data in various Tamil and Sinhala heritage fonts, aimed at constructing a parallel corpus for Tamil-Sinhala-English translations.
创建时间:
2022-08-25
原始信息汇总
数据集概述
数据集目的
该数据集旨在支持一个研究项目,该项目专注于开发一个能够从使用传统字体和打印友好编码的文档中自动提取文本的光学字符识别(OCR)引擎。目的是创建一个泰米尔语、僧伽罗语和英语的平行语料库。
数据集内容
- 数据集准备:使用jTessBoxEditor创建带有坐标规范的box文件,并调整字符跟踪和间距,以解决边界框重叠问题。
- 模型训练:通过LSTM训练增强Tesseract 4.1.1的性能,特别针对泰米尔语和僧伽罗语的传统字体。
- 性能评估:通过比较原始Tesseract和优化后的Tesseract在不同字体上的字符错误率(CER)和单词错误率(WER)来评估模型性能。
数据集使用指南
- 生成TIFF/Box文件:使用
tesstrain.sh脚本生成训练所需的TIFF和Box文件。 - 模型训练命令:提供详细的命令行参数和步骤,用于进行模型的训练和评估。
语料库创建
- 数据来源:从www.parliament.lk下载泰米尔语、僧伽罗语和英语的PDF文件。
- 语料库统计:提供每种语言的文件数量、句子数量、单词数量和唯一单词数量。
引用信息
- 参考文献:提供了在学术出版物中引用此数据集的格式。
许可证
- 许可证类型:Apache License 2.0。
搜集汇总
数据集介绍

构建方式
Tamizhi-Net-OCR数据集的构建基于对Tesseract 4.1.1开源OCR引擎的改进,特别针对泰米尔语和僧伽罗语的遗留字体进行了LSTM模型的训练。通过使用jTessBoxEditor工具,研究人员生成了包含字符坐标信息的box文件,并对字符识别错误、字符间距等问题进行了校正,以确保字符边界框的准确性。此外,数据集还通过从斯里兰卡议会网站下载的多语言PDF文档中提取文本,构建了一个泰米尔语-僧伽罗语-英语的平行语料库。
使用方法
Tamizhi-Net-OCR数据集的使用方法主要包括通过命令行工具生成TIFF/Box文件,并使用LSTM模型进行训练和评估。用户可以通过提供的脚本启动训练过程,并利用训练好的模型进行文本识别。数据集还支持对OCR输出的字符错误率(CER)和单词错误率(WER)进行评估,帮助用户优化模型性能。此外,数据集中的平行语料库可用于多语言翻译和文本对齐研究。
背景与挑战
背景概述
Tamizhi-Net-OCR数据集由Dr. Uthayasanker Thayasivam领导的团队于2022年创建,旨在解决泰米尔语和僧伽罗语遗留字体在光学字符识别(OCR)中的挑战。该数据集通过改进Tesseract 4.1.1引擎,利用LSTM技术对多种遗留字体进行训练,以识别印刷文档中的字符、数字和特殊符号。研究团队还创建了一个泰米尔语、僧伽罗语和英语的平行语料库,为多语言文本处理提供了重要资源。该数据集在2022年国际亚洲语言处理会议(IALP)上发表,对提升南亚语言的OCR技术具有重要影响。
当前挑战
Tamizhi-Net-OCR数据集在构建过程中面临多重挑战。首先,遗留字体的多样性和复杂性使得字符识别难度显著增加,尤其是在处理混合编码和特殊字符时。其次,数据集构建过程中需要精确调整字符边界框,以避免重叠和误识别问题,这要求大量的人工干预和工具支持。此外,泰米尔语和僧伽罗语的形态学特性使得OCR模型的训练和优化更加复杂,尤其是在处理低资源语言时。最后,平行语料库的创建需要从多语言文档中提取和对齐文本,这对数据预处理和模型性能提出了更高要求。
常用场景
经典使用场景
Tamizhi-Net-OCR数据集在泰米尔语和僧伽罗语文本识别领域具有广泛的应用。该数据集通过增强Tesseract OCR引擎的性能,特别针对泰米尔语和僧伽罗语的遗留字体进行优化,能够有效识别印刷文档中的混合文本、数字和特殊字符。其经典使用场景包括从历史文献、政府文件和法律文书中提取文本,为语言学研究提供了宝贵的资源。
解决学术问题
Tamizhi-Net-OCR数据集解决了泰米尔语和僧伽罗语文本识别中的关键问题,特别是在遗留字体和打印机友好编码的文档中提取文本的挑战。通过LSTM训练和精细的字符边界检测技术,该数据集显著降低了字符错误率(CER)和单词错误率(WER),为多语言OCR系统的开发提供了可靠的基础。
实际应用
在实际应用中,Tamizhi-Net-OCR数据集被广泛用于政府机构、图书馆和档案馆的文档数字化工作。例如,斯里兰卡议会网站的PDF文件通过该数据集进行文本提取,生成了泰米尔语、僧伽罗语和英语的平行语料库,为跨语言信息检索和机器翻译提供了重要支持。
数据集最近研究
最新研究方向
在光学字符识别(OCR)领域,Tamizhi-Net-OCR数据集的研究方向主要集中在提升对泰米尔语和僧伽罗语等低资源语言的识别能力。通过改进Tesseract OCR引擎,结合LSTM深度学习模型,研究团队成功提升了OCR系统对复杂字体和混合编码文本的识别精度。此外,该数据集还推动了泰米尔语、僧伽罗语和英语之间的平行语料库构建,为多语言机器翻译和跨语言信息检索提供了重要支持。这一研究不仅填补了低资源语言OCR技术的空白,还为文化遗产数字化和多语言信息处理开辟了新的路径。
以上内容由遇见数据集搜集并总结生成



