PsOCR

Name: PsOCR
Creator: 华南理工大学智能制造学院
Published: 2025-05-15 15:58:38
License: 暂无描述

arXiv2025-05-15 更新2025-05-17 收录

下载链接：

https://github.com/zirak-ai/PashtoOCR

下载链接

链接失效反馈

官方服务：

资源简介：

PsOCR是一个用于训练和评估大型多模态模型（LMMs）在低资源普什图语光学字符识别（OCR）任务的综合性数据集。该数据集由一百万张合成图像组成，这些图像在单词、行和文档级别上带有边界框注释，适用于基于不同架构（包括卷积神经网络（CNNs）和Transformer）的模型训练和评估。PsOCR涵盖了1000个独特的字体家族、颜色、图像大小和布局的变化。为评估多个LMMs的性能，还选择了10K图像的基准子集。实验结果表明，Gemini在所有模型中表现最佳，而在开源模型中，Qwen-7B表现突出。这项工作为Pashto OCR以及阿拉伯语、波斯语和乌尔都语等其他类似脚本的研究提供了有价值的评估。

PsOCR is a comprehensive dataset for training and evaluating large multimodal models (LMMs) on low-resource Pashto optical character recognition (OCR) tasks. This dataset comprises one million synthetic images with bounding box annotations at the word, line, and document levels, making it suitable for training and evaluating models built on various architectures including convolutional neural networks (CNNs) and Transformers. PsOCR covers variations across 1,000 unique font families, colors, image sizes, and layouts. To evaluate the performance of multiple LMMs, a benchmark subset of 10K images was also selected. Experimental results demonstrate that Gemini outperforms all other models, while among open-source models, Qwen-7B stands out prominently. This work provides a valuable evaluation resource for Pashto OCR and research on other similar scripts such as Arabic, Persian, and Urdu.

提供机构：

华南理工大学智能制造学院

创建时间：

2025-05-15

原始信息汇总

PsOCR - Pashto OCR 数据集概述

数据集简介

名称：PsOCR - Pashto OCR Dataset
类型：合成OCR数据集
语言：Pashto（低资源语言）
规模：100万张图像

数据内容

标注级别：单词级、行级、文档级
覆盖范围：
- 1000种独特字体
- 多种颜色、大小和布局

数据集用途

主要用途：推动Pashto语言的OCR研究

获取渠道

HuggingFace：https://huggingface.co/datasets/zirak-ai/PashtoOCR
Kaggle：https://www.kaggle.com/datasets/drijaz/PashtoOCR

搜集汇总

数据集介绍

构建方式

PsOCR数据集的构建采用了合成数据生成技术，以解决普什图语这一低资源语言在OCR任务中的数据稀缺问题。研究团队通过三个主要来源收集普什图语文本：Common Crawl语料库、开源网站以及现有的Twitter、书籍和新闻资源。经过严格的文本清洗和预处理后，使用Python脚本将文本转换为HTML页面，并通过CSS随机样式化，最终利用Selenium库渲染并捕获为PNG图像。数据集包含一百万张图像，涵盖了1000种独特的字体家族、多样的颜色方案和布局变化，确保了数据的多样性和真实性。

特点

PsOCR数据集的特点在于其全面性和多样性。数据集包含一百万张合成图像，标注粒度覆盖页面级、行级和词级，适用于不同架构的OCR模型训练。字体多样性是其显著特点，经过筛选后保留了1000种易读且风格各异的字体家族。此外，数据集还模拟了真实文档的多种视觉特征，包括不同的图像尺寸、宽高比、颜色主题（深色和浅色）以及文本对齐方式。这些特点使得PsOCR成为评估和提升OCR模型在复杂波斯-阿拉伯文字脚本上性能的理想资源。

使用方法

PsOCR数据集的使用方法灵活多样，适用于多种OCR任务。研究人员可以利用其丰富的标注信息（包括页面、行和词级别的边界框）来训练和评估基于CNN或Transformer架构的模型。数据集的10K图像基准子集专门用于零样本评估，支持对大型多模态模型（如GPT-4o、Gemini等）的性能测试。使用前需注意数据集的合成性质，建议结合真实场景数据进行微调以提升模型在实际应用中的鲁棒性。数据集已公开在HuggingFace和Kaggle平台，便于学术研究和工业应用。

背景与挑战

背景概述

PsOCR数据集由华南理工大学智能制造学院的研究团队于2025年推出，旨在解决低资源普什图语的光学字符识别（OCR）问题。普什图语作为一种使用波斯-阿拉伯字母的右书文字，其复杂的连字形式和变体字符给OCR技术带来了独特挑战。该数据集包含一百万张合成图像，涵盖1000种字体变体和多样化版面布局，成为首个针对普什图语的公开OCR基准，为阿拉伯语系文字的OCR研究提供了重要参照。

当前挑战

在领域问题层面，PsOCR需应对普什图语字符的四种形态变体、缺乏明确词边界以及变音符号非标准化使用等语言学特性。数据集构建过程中，研究者面临三重技术挑战：从Common Crawl海量数据中筛选不足1GB的普什图语有效语料；设计兼顾字体多样性与视觉可读性的合成算法；建立适应CNN和Transformer架构的多粒度标注体系（页面/行/词三级边界框）。这些挑战使PsOCR成为检验多模态模型跨文字系统泛化能力的重要试金石。

常用场景

经典使用场景

在低资源普什图语OCR研究中，PsOCR数据集被广泛用于评估和训练多模态大模型（LMMs）的字符识别能力。其百万级合成图像覆盖了1000种独特字体、多样色彩及版式，为研究者在零样本条件下测试模型对复杂阿拉伯字母变体（如连字、上下标符号）的泛化性能提供了标准化基准。该数据集特别适用于比较CNN与Transformer架构在右向左书写（RTL）文本中的表现差异，例如验证Gemini在字符级准确率（89.92%）显著优于开源模型Qwen-7B（66.33%）的现象。

衍生相关工作

PsOCR催生了两个标志性研究方向：在方法论层面，其合成数据框架被CAMEL-Bench改进用于阿拉伯语OCR，通过引入纹理背景增强现实适应性；在模型架构方面，启发了Janus-Pro的混合注意力机制设计，该模型在PsOCR测试集上字符错误率较基线降低15%。此外，数据集标注规范直接影响后续PHTI手写数据集的构建标准，而颜色对比度控制策略被TextOCR等基准采纳为图像生成准则。

数据集最近研究