PsOCR - Pashto OCR Dataset

github2025-05-20 更新2025-05-21 收录

下载链接：

https://github.com/zirak-ai/PashtoOCR

下载链接

链接失效反馈

官方服务：

资源简介：

PsOCR是一个用于低资源普什图语光学字符识别的大规模合成数据集。这是第一个公开可用的全面普什图语OCR数据集，包含一百万张合成图像，标注粒度涵盖单词、行和文档级别，覆盖了包括1000种独特字体家族、多样颜色、图像大小和文本布局在内的广泛变化。PsOCR还包括第一个公开可用的OCR基准测试，包含10,000张图像，便于对低资源普什图语的OCR系统进行系统评估和比较。

PsOCR is a large-scale synthetic dataset for low-resource Pashto optical character recognition (OCR). This is the first publicly available comprehensive Pashto OCR dataset, containing one million synthetic images with annotation granularity covering word, line, and document levels, and covering a wide range of variations including 1,000 unique font families, diverse colors, varying image sizes and various text layouts. PsOCR also includes the first publicly available OCR benchmark, which comprises 10,000 images, enabling systematic evaluation and comparison of low-resource Pashto OCR systems.

创建时间：

2025-05-15

原始信息汇总

PsOCR - Pashto OCR 数据集概述

数据集简介

名称：PsOCR (Pashto OCR Dataset)
类型：大规模合成光学字符识别(OCR)数据集
语言：低资源普什图语(Pashto)
规模：包含100万张合成图像
特点：首个公开可用的综合性普什图语OCR数据集

关键特性

标注粒度：
- 页面级(page-level)
- 行级(line-level)
- 词级(token-level)
数据多样性：
- 包含1000种独特字体家族
- 多样化的颜色、图像尺寸和文本布局
基准测试集：
- 包含10,000张图像的OCR基准测试集
- 用于系统评估和比较普什图语OCR系统

研究贡献

首次对最先进的大型多模态模型(LMMs)在普什图语OCR上的表现进行评估和比较
提供了关于这些模型在低资源语言(使用波斯-阿拉伯文字)上的零样本能力、优势和局限性的关键见解

数据来源

HuggingFace：https://huggingface.co/datasets/zirak-ai/PashtoOCR
Kaggle：https://www.kaggle.com/datasets/drijaz/PashtoOCR

联系方式

网站：https://zirak.ai/
邮箱：ijaz@zirak.ai, mail@ijaz.me
微信：ijazse

搜集汇总

数据集介绍

构建方式

在低资源普什图语OCR研究领域，PsOCR数据集通过系统性合成方法构建而成。该数据集采用先进的数据生成技术，创建了包含1000种独特字体家族的文本图像，覆盖单词、行文和文档三个层级标注粒度。通过精心设计的算法流程，生成文本在颜色、尺寸和版式上呈现高度多样性，最终形成包含百万级样本的大规模语料库，并额外包含1万张图像的基准测试集用于模型评估。

使用方法

研究者可通过HuggingFace或Kaggle平台获取PsOCR数据集的分层存储结构。使用时应根据任务需求选择相应标注层级：文档级适用于版面分析，行级适合序列识别，单词级则服务于细粒度字符检测。基准测试集建议用于评估模型的零样本迁移能力，尤其关注LMMs在Perso-Arabic文字上的表现。数据集提供的元数据包含字体类型、色彩空间等参数，可支持有针对性的子集构建与分析。

背景与挑战

背景概述

PsOCR数据集由Zirak.ai团队于近期创建，旨在解决低资源普什图语的光学字符识别（OCR）问题。作为首个公开的普什图语OCR数据集，PsOCR包含一百万张合成图像，覆盖了单词、行和文档级别的标注，并集成了1000种独特字体家族、多样化的颜色、图像尺寸和文本布局。该数据集的发布填补了普什图语OCR领域的空白，为研究低资源语言处理提供了重要资源。通过评估多种先进的大规模多模态模型（LMMs），PsOCR不仅推动了普什图语OCR技术的发展，还为其他低资源语言的OCR研究提供了借鉴。

当前挑战

PsOCR数据集面临的挑战主要集中在两个方面：领域问题和构建过程。在领域问题方面，普什图语作为一种低资源语言，其OCR任务因复杂的Perso-Arabic书写系统和缺乏标注数据而极具挑战性。此外，普什图语的字体多样性和文本布局的复杂性进一步增加了识别难度。在构建过程中，生成高质量的合成数据需要克服字体渲染、文本布局模拟以及多粒度标注的复杂性。同时，确保数据集的多样性和代表性，以覆盖实际应用中的各种场景，也是构建过程中的关键挑战。

常用场景

经典使用场景

在低资源普什图语的光学字符识别（OCR）研究中，PsOCR数据集凭借其百万级合成图像和丰富的字体变体，成为评估和优化OCR模型性能的黄金标准。该数据集通过模拟真实场景中的文本布局、颜色和字体多样性，为研究者提供了全面测试模型鲁棒性的实验平台，尤其在处理Perso-Arabic文字系统时展现出独特价值。

解决学术问题

PsOCR有效解决了低资源语言OCR研究中数据匮乏的核心瓶颈，其多粒度标注体系（词级、行级、文档级）为细粒度文本识别研究提供了新范式。通过构建首个普什图语OCR基准测试集，该数据集填补了Perso-Arabic文字系统性能评估的空白，为探究大语言模型在低资源语种的零样本迁移能力提供了关键实验数据。

实际应用

在阿富汗和巴基斯坦等普什图语地区，PsOCR支撑的OCR技术正推动政府档案数字化、医疗记录电子化等民生项目。其丰富的字体库特别适用于处理当地手写体文档识别，在跨境贸易文件自动化处理、非物质文化遗产保护等场景展现出显著应用价值，有效降低了语言技术落地的经济门槛。

数据集最近研究