hezarai/parsynth-ocr-200k
收藏Hugging Face2024-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hezarai/parsynth-ocr-200k
下载链接
链接失效反馈官方服务:
资源简介:
ParsynthOCR-200K是一个针对波斯语OCR的合成数据集,包含约20万个样本。数据集分为训练集和测试集,分别包含179999和20000个样本。数据集包含图像路径和文本字段,用于图像到图像的任务。此版本是原始400万样本数据集的一个预览。
ParsynthOCR-200K是一个针对波斯语OCR的合成数据集,包含约20万个样本。数据集分为训练集和测试集,分别包含179999和20000个样本。数据集包含图像路径和文本字段,用于图像到图像的任务。此版本是原始400万样本数据集的一个预览。
提供机构:
hezarai
原始信息汇总
数据集概述
基本信息
- 语言: 波斯语 (fa)
- 大小类别: 100K<n<1M
- 任务类别: 图像到图像 (image-to-image)
- 美观名称: ParsynthOCR-200K
- 标签: hezar
数据集信息
- 特征:
- image_path: 图像路径 (dtype: image)
- text: 文本 (dtype: string)
- 分割:
- 训练集:
- 字节数: 560135371.667
- 样本数: 179999
- 测试集:
- 字节数: 63380889.0
- 样本数: 20000
- 训练集:
- 下载大小: 568073396
- 数据集大小: 623516260.667
配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
描述
ParsynthOCR 是一个用于波斯文字识别的合成数据集。此版本是原始 400 万样本数据集 (ParsynthOCR-4M) 的预览版。
搜集汇总
数据集介绍

构建方式
在光学字符识别领域,波斯语文本资源的稀缺性促使研究者探索合成数据生成技术。ParsynthOCR-200K数据集通过计算机生成技术构建,利用合成引擎模拟真实场景中的文本图像,涵盖多种字体样式、背景纹理及光照条件,从而生成包含17.9万训练样本和2万测试样本的大规模数据集。该构建方法有效避免了人工标注的高成本,同时确保了文本与图像对应关系的精确性,为波斯语OCR模型训练提供了高质量的基准数据源。
特点
该数据集专为波斯语光学字符识别任务设计,其核心特点在于完全基于合成生成,避免了版权与隐私问题。数据集中每张图像均对应准确的波斯语文本标签,覆盖了日常用语、新闻短语及文学片段等多种语言风格。图像分辨率统一且背景多样化,模拟了真实世界中的文档扫描、自然场景文本等复杂情况,增强了模型在实际应用中的泛化能力。此外,数据集规模适中,兼顾了训练效率与模型性能评估的需求。
使用方法
用户可通过Hugging Face的`datasets`库直接加载该数据集,使用`load_dataset`函数并指定数据集名称即可获取训练与测试分割。对于集成至Hezar框架的用户,安装相应库后可通过`Dataset.load`方法调用,并灵活选择数据分割。该数据集适用于端到端的OCR模型训练,如图像到文本的序列生成任务,也可用于评估模型在波斯语文本识别上的准确率与鲁棒性,推动多语言OCR技术的发展。
背景与挑战
背景概述
在光学字符识别(OCR)领域,针对特定语言的文本识别任务常因高质量标注数据的稀缺而面临挑战,波斯语作为一门拥有独特书写体系的复杂语言,其数字化进程尤为需要大规模、多样化的训练资源支持。ParsynthOCR-200K数据集由HezarAI团队构建,作为一个包含约20万样本的合成数据集,旨在为波斯语OCR模型提供丰富的训练素材,其核心研究问题聚焦于通过合成数据提升模型在真实场景下的文本识别准确性与鲁棒性,对推动波斯语自然语言处理技术的发展具有显著影响力。
当前挑战
该数据集致力于解决波斯语光学字符识别任务中的关键挑战,包括处理波斯语复杂的连字形式、多样的字体风格以及手写体变体,这些因素使得传统OCR模型在泛化能力上存在局限。在构建过程中,挑战主要源于合成数据的真实性与多样性平衡,需模拟真实世界中的噪声、光照变化及版面布局,同时确保文本标注的语义准确性与字符级对齐,以避免模型过拟合于理想化合成环境而影响实际应用效果。
常用场景
经典使用场景
在波斯语光学字符识别领域,数据集常被用于训练端到端的文本识别模型。通过合成图像与对应文本的配对,研究者能够构建大规模的监督学习样本,有效模拟真实场景中的文字提取任务。这一过程不仅涵盖了多种字体、背景和噪声条件,还为模型提供了丰富的视觉变体,从而提升其在复杂环境下的泛化能力。
实际应用
在实际应用中,该数据集支持波斯语文档数字化、自动化信息提取系统以及移动端文字扫描工具的开发。例如,在文化遗产保护中,可用于古籍和手稿的电子化存档;在商业领域,则助力于发票处理、名片识别等业务流程的智能化。这些应用显著提升了波斯语使用者在数字环境中的信息访问效率,推动了社会信息化进程。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于Transformer的波斯语文本识别模型、多语言OCR系统的迁移学习框架,以及合成数据质量评估方法。这些工作不仅拓展了OCR技术的边界,还为其他低资源语言提供了可借鉴的范式,例如在阿拉伯语、乌尔都语等相似文字体系中的应用探索,进一步丰富了全球文字处理研究的生态。
以上内容由遇见数据集搜集并总结生成



