abdur75648/UrduDoc
收藏Hugging Face2024-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abdur75648/UrduDoc
下载链接
链接失效反馈官方服务:
资源简介:
UrduDoc数据集是一个用于乌尔都语文本行检测的基准数据集,主要用于扫描文档中的乌尔都语文本识别。数据集包含478张从书籍、文档、手稿和报纸等多种来源收集的图像,其中358页用于训练,120页用于验证。数据集涵盖了多种风格、尺度和光照条件,为乌尔都语文档分析研究提供了宝贵的资源。该数据集是UTRSet-Real数据集生成过程的副产品,并提供了最新模型的基准测试结果,其中Contour-Net模型在h-mean指标上表现最佳。数据集将根据请求和执行无成本许可协议后公开,供非商业、学术和研究使用。
UrduDoc数据集是一个用于乌尔都语文本行检测的基准数据集,主要用于扫描文档中的乌尔都语文本识别。数据集包含478张从书籍、文档、手稿和报纸等多种来源收集的图像,其中358页用于训练,120页用于验证。数据集涵盖了多种风格、尺度和光照条件,为乌尔都语文档分析研究提供了宝贵的资源。该数据集是UTRSet-Real数据集生成过程的副产品,并提供了最新模型的基准测试结果,其中Contour-Net模型在h-mean指标上表现最佳。数据集将根据请求和执行无成本许可协议后公开,供非商业、学术和研究使用。
提供机构:
abdur75648
原始信息汇总
UrduDoc (UTRNet) 数据集概述
基本信息
- 标题: UrduDoc (UTRNet)
- 许可证: cc-by-nc-4.0
- 任务类别: image-to-text
- 语言: ur
- 标签: ocr, text recognition, urdu-ocr, utrnet
- 别名: UrduDoc
数据集详情
- 描述: UrduDoc 数据集是一个用于乌尔都语扫描文档中文字行检测的基准数据集。它是 UTRSet-Real 数据集生成过程的副产品。该数据集包含 478 张来自书籍、文档、手稿和报纸等多种来源的多样化图像,为乌尔都语文档分析研究提供了宝贵的资源。
- 数据划分: 包含 358 页用于训练,120 页用于验证。
- 特点: 涵盖了广泛的样式、尺度和光照条件。
- 用途: 作为评估印刷乌尔都语文字检测模型的基准。
- 最佳性能模型: Contour-Net 模型在 h-mean 指标上表现最佳。
参考资料
搜集汇总
数据集介绍

构建方式
在乌尔都语文档分析领域,UrduDoc数据集的构建源于UTRSet-Real数据集生成过程的副产品。该数据集精心采集了478幅多样化图像,来源涵盖书籍、文档、手稿及报纸等多种印刷材料,确保了样本的广泛代表性。这些图像被划分为358页用于训练,120页用于验证,覆盖了不同风格、尺度和光照条件,为模型训练提供了丰富的视觉语境。构建过程中注重数据的真实性与多样性,旨在为印刷乌尔都语文本行检测任务建立可靠的基准。
特点
作为首个专注于印刷乌尔都语文本行检测的公开数据集,UrduDoc呈现出鲜明的技术特色。其图像集合囊括了多种文档类型与排版样式,模拟了实际应用中的复杂场景,如光照变化和尺度差异。数据集不仅提供了标准化的训练与验证划分,还附带了先进模型的基准测试结果,其中Contour-Net模型在h-mean指标上表现最优。这些特点使得该数据集成为推动乌尔都语光学字符识别研究的关键资源。
使用方法
研究人员可通过非商业学术许可协议申请获取UrduDoc数据集,进而开展乌尔都语文档分析实验。该数据集适用于图像到文本任务的模型训练与评估,尤其聚焦于文本行检测与识别。使用时可依据提供的训练集进行模型优化,并利用验证集测试性能;同时可参考已公布的基准结果进行横向比较。详细的使用指南与相关资源可在项目网站及关联论文中查阅,以保障研究的规范性与可复现性。
背景与挑战
背景概述
在文档分析与光学字符识别领域,针对非拉丁语系文本的研究长期面临资源匮乏的挑战。2023年,由研究人员Abdur等人创建的UrduDoc数据集应运而生,作为UTRNet项目的重要组成部分,该数据集专注于乌尔都语印刷文本行的检测。乌尔都语作为南亚地区广泛使用的语言,其独特的从右至左书写方式及复杂的连字形式,使得传统OCR技术难以直接适用。UrduDoc通过收集来自书籍、手稿、报纸等多元来源的478张扫描图像,构建了包含训练集与验证集的基准数据,不仅填补了该语言在文档分析领域的空白,也为高分辨率文本识别模型的发展提供了关键支撑,推动了多语言文档处理技术的进步。
当前挑战
UrduDoc数据集致力于解决乌尔都语印刷文档中文本行检测的核心难题,其挑战首先体现在领域问题的复杂性上:乌尔都语的连字变体丰富、字符形态多变,且文档常存在光照不均、版面倾斜及历史文献退化等现象,导致文本定位与分割极易出错。在构建过程中,数据采集面临来源分散、质量参差不齐的困难,需人工筛选与标注以覆盖多样化的字体、尺寸和背景;同时,为确保学术用途的合规性,数据发布需通过非商业许可协议进行严格管理,这增加了数据共享与使用的门槛。这些挑战共同凸显了低资源语言文档分析中数据标准化与算法鲁棒性的迫切需求。
常用场景
经典使用场景
在文档分析与光学字符识别领域,UrduDoc数据集为乌尔都语印刷文本行检测提供了标准化的评估基准。该数据集通过收集书籍、手稿和报纸等多样化的扫描图像,模拟了真实世界中的复杂文档布局与视觉变化,使得研究人员能够训练和验证模型在乌尔都语文本行定位任务上的性能。其包含的训练与验证划分,以及涵盖不同风格、尺度和光照条件的样本,为开发鲁棒的文本检测算法奠定了坚实基础。
实际应用
在实际应用中,UrduDoc数据集为乌尔都语文化遗产数字化和自动化办公提供了关键支持。例如,在图书馆和档案馆中,该数据集可用于开发高效的系统,以自动识别和转录历史文献中的乌尔都语文本,加速文献的保存与检索。此外,在教育与出版行业,基于该数据集的OCR技术能够辅助生成可访问的电子文档,提升信息传播的效率和包容性。
衍生相关工作
围绕UrduDoc数据集,衍生出了一系列经典研究工作,其中最突出的是UTRNet模型及其相关数据集UTRSet-Real和UTRSet-Synth。这些工作专注于高分辨率乌尔都语文本识别,通过结合合成与真实数据,提升了模型在复杂文档场景下的性能。后续研究在此基础上进一步优化了文本检测与识别流程,为多语言OCR领域贡献了可复现的基准和方法论框架。
以上内容由遇见数据集搜集并总结生成



