Tamil synthetic OCR benchmarking dataset
收藏arXiv2025-07-24 更新2025-07-26 收录
下载链接:
https://huggingface.co/datasets/Nevidu/tamil_ synthetic_ocr
下载链接
链接失效反馈官方服务:
资源简介:
本研究介绍了一个新型的合成泰米尔OCR基准数据集,该数据集由2437959条记录组成,通过将泰米尔文本从OPUS数据库中的OpenSubtitles v2024版本中提取,并使用六种不同的字体将文本转换为图像。数据集旨在为低资源语言的OCR提供评估和比较的基础,以解决泰米尔等低资源语言在OCR中的挑战。
This study introduces a novel synthetic Tamil OCR benchmark dataset consisting of 2,437,959 records. Tamil text was extracted from the OpenSubtitles v2024 corpus in the OPUS database, then converted into images using six distinct fonts. This dataset aims to provide a foundational resource for the evaluation and comparison of OCR systems for low-resource languages, addressing the OCR-related challenges faced by low-resource languages such as Tamil.
提供机构:
斯里兰卡莫拉图瓦大学计算机科学与工程学院
创建时间:
2025-07-24
搜集汇总
数据集介绍

构建方式
Tamil synthetic OCR benchmarking dataset的构建过程体现了对低资源语言OCR研究的严谨态度。研究团队从OPUS语料库中精选了OpenSubtitles v2024的泰米尔语文本,经过逐行分割和字符过滤,保留了纯泰米尔语内容。为确保数据质量,采用长度超过40字符的筛选标准,最终从222,658条记录中随机抽取7,000个样本。文本转换环节运用Pillow库的先进功能,采用Hind Madurai等六种风格迥异的字体生成图像,并通过动态计算文本边界框实现精准居中排版,形成了具有视觉一致性的高质量数据集。
使用方法
本数据集专为评估OCR系统在零样本条件下的泰米尔语识别能力而设计。研究人员可将其作为基准测试集,通过字符错误率(CER)、词错误率(WER)等五项指标全面衡量系统性能。使用时应配合Pytesseract、EasyOCR等开源工具或Google Document AI等商业API进行端到端测试。对于跨语言研究,建议与僧伽罗语合成数据集进行对比实验,但需注意两者虽同属南亚圆体文字,但因语言特征差异需采用不同的后处理方法。数据集已托管于HuggingFace平台,支持即插即用的评估流程。
背景与挑战
背景概述
Tamil synthetic OCR benchmarking dataset是由Nevidu Jayatilleke和Nisansa de Silva等研究人员于2025年创建的,旨在解决低资源语言(LRL)如泰米尔语的光学字符识别(OCR)问题。该数据集通过合成方法生成,包含多种字体样式的泰米尔语文本图像及其对应的参考文本,为泰米尔语OCR系统的零样本性能评估提供了重要基准。该数据集的推出填补了泰米尔语OCR公开数据集的空白,并为相关研究提供了可靠的数据支持,推动了低资源语言OCR技术的发展。
当前挑战
泰米尔语OCR面临的主要挑战包括:1) 字符识别难度高,泰米尔语独特的圆体文字(rounded script)及其复杂的字符变体增加了OCR系统的识别难度;2) 数据稀缺问题,低资源语言的标注数据匮乏,限制了深度学习模型的训练效果;3) 合成数据与真实数据的差距,尽管合成数据提供了可控的实验环境,但其与真实场景中的噪声、模糊和变形文本存在差异,可能影响模型在实际应用中的表现。此外,构建过程中的挑战包括多字体文本的生成与对齐,以及确保合成数据的多样性和代表性。
常用场景
经典使用场景
Tamil synthetic OCR benchmarking dataset 主要用于评估和比较不同OCR引擎在泰米尔语文本识别任务中的性能。该数据集通过合成生成,包含了多种字体和样式的泰米尔语文本图像,为研究者提供了一个标准化的测试平台。在OCR技术研究中,该数据集被广泛用于测试零样本(zero-shot)条件下的OCR系统表现,特别是在低资源语言(LRL)环境下的适用性。
解决学术问题
该数据集解决了低资源语言OCR研究中的数据稀缺问题,为泰米尔语文本识别任务提供了高质量的基准数据。通过该数据集,研究者能够系统评估不同OCR引擎在字符和单词级别的识别准确率,从而推动低资源语言OCR技术的进步。此外,该数据集还为跨语言OCR性能比较提供了重要参考,填补了泰米尔语OCR研究的数据空白。
实际应用
在实际应用中,该数据集为泰米尔语文档数字化、自动化表单处理和历史文献数字化提供了技术支持。例如,政府部门和文化遗产机构可以利用该数据集训练的OCR系统,高效处理泰米尔语印刷文档,提升信息提取和管理的效率。此外,该数据集还可用于开发多语言OCR工具,支持泰米尔语与其他语言的混合文本识别。
数据集最近研究
最新研究方向
在低资源语言光学字符识别(OCR)领域,Tamil synthetic OCR benchmarking dataset的引入为泰米尔语文本识别研究提供了重要的基准工具。该数据集通过合成生成方法,涵盖了多种字体风格,为评估OCR引擎在零样本设置下的性能提供了标准化测试环境。近期研究聚焦于探索多模态模型在低资源语言OCR任务中的迁移学习能力,特别是比较商业引擎(如Document AI)与开源系统(如Surya、Tesseract)在复杂字形和连字处理上的差异。值得注意的是,Document AI在泰米尔语识别中展现出卓越的字符级准确率(CER 0.78%),而开源系统在词级识别(WER 11.98%)仍存在显著提升空间,这揭示了字形特征提取与语言模型结合的优化方向。该数据集进一步推动了针对南亚圆体文字(如泰米尔文、僧伽罗文)的布局感知合成数据生成技术发展,为低资源语言文档数字化提供了新的方法论参考。
相关研究论文
- 1Zero-shot OCR Accuracy of Low-Resourced Languages: A Comparative Analysis on Sinhala and Tamil斯里兰卡莫拉图瓦大学计算机科学与工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成



