GIGAParviz/persian-ner-ocr

Name: GIGAParviz/persian-ner-ocr
Creator: GIGAParviz
Published: 2026-04-25 07:47:20
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/GIGAParviz/persian-ner-ocr

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: tokens list: string - name: ner_tags list: int64 splits: - name: train num_bytes: 8704724.0 num_examples: 80000 - name: test num_bytes: 2176181.0 num_examples: 20000 download_size: 2920688 dataset_size: 10880905.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

提供机构：

GIGAParviz

搜集汇总

数据集介绍

构建方式

该数据集专为波斯语命名实体识别与光学字符识别场景设计，通过融合OCR校正后的文本与人工标注，构建了包含10万条样本的高质量语料库。其中，训练集与测试集分别包含8万与2万条数据，每条样本由若干单词（tokens）及其对应的实体标签（ner_tags）组成，标签采用整数编码以适配序列标注模型。数据源自多种真实OCR输出，经预处理后以Parquet格式存储，兼顾了存储效率与读取速度。

特点

数据集的核心特点在于其双任务导向的实用性。一方面，它覆盖了波斯语中常见的实体类别，如人名、地名、机构名等，为NER模型提供丰富的标注信号；另一方面，其输入的tokens直接源于OCR识别结果，包含拼写噪声与字符变形，可模拟真实应用场景下的非标准化文本，从而训练出对OCR误差具有鲁棒性的NER模型。训练与测试集比例均衡，且统一采用整数标签，降低了开发者的预处理负担。

使用方法

用户可直接通过HuggingFace Datasets库加载该数据集，指定default配置后，系统会自动划分train和test两个子集。训练时，建议将tokens作为输入特征、ner_tags作为标签，使用BERT-based等支持序列标注的Transformer模型。由于标签为整数，需预先定义id到实体类型的映射。此外，数据集以分片形式存储（train-*与test-*），支持分布式加载与流式处理，便于集成至大规模训练管道。

背景与挑战

背景概述

波斯语命名实体识别（NER）是自然语言处理领域中的重要任务，尤其在处理低资源语言时面临独特挑战。persian-ner-ocr数据集由研究机构创建于近年，旨在为波斯语OCR场景下的NER提供基准资源。该数据集包含8万训练样本和2万测试样本，每个样本由词语序列与对应的命名实体标签构成，聚焦于从图像识别文本中提取人名、地名、组织机构等实体信息。这一资源填补了波斯语在光学字符识别与NER交叉领域的数据空白，对提升波斯语信息抽取系统的鲁棒性具有关键意义，推动了伊朗及周边地区语言技术的研究进展。

当前挑战

当前面临的核心挑战包括：第一，波斯语本身的形态复杂性，如连写、变体字母及零宽非连接符，增加了OCR后NER的识别难度；第二，数据集构建过程中需处理图像噪声、字体多样性及排版干扰，确保标注质量；第三，领域适配性问题，现有模型在特定场景（如历史文献、手写体）下的泛化能力不足；第四，资源稀缺性导致基准模型缺乏大规模预训练语料支持，限制了深度学习方法的效果。这些挑战要求研究者开发更鲁棒的OCR预处理策略、设计语言特有的特征工程，并探索跨域迁移学习方案以提升系统性能。

常用场景

经典使用场景

在自然语言处理与光学字符识别（OCR）的交汇领域，persian-ner-ocr数据集为波斯语的命名实体识别（NER）任务提供了独特的标注资源。该数据集包含八万个训练样本与两万个测试样本，每个样本由词序列（tokens）及其对应的命名实体标签（ner_tags）构成，专门服务于从OCR输出文本中精准抽取人名、地名、组织名等实体信息。研究者常将其作为基准数据集，用于训练和评估面向波斯语的序列标注模型，尤其是在OCR错误文本环境下，该数据集能够检验模型对拼写变异或字符识别误差的鲁棒性。其经典使用场景包括开发基于Transformer的NER系统，以及探索OCR后处理中的实体边界校正技术。

解决学术问题

该数据集的核心贡献在于填补了波斯语OCR场景下命名实体识别资源的空白。传统波斯语NER数据集多基于规范文本，而persian-ner-ocr聚焦于OCR带来的噪声问题，如字符混淆、连写断裂或残缺，这极大地推动了学术研究中对文本降质鲁棒性的探索。通过提供大规模、高质量的人工标注实体标签，它解决了数据稀缺性导致的模型泛化难题，使得研究者能够量化OCR噪声对实体抽取精度的影响。相关意义包括：促进多语言NER技术的公平性评估，为波斯语信息提取系统奠定数据基础，并启发针对阿拉伯-波斯文字体的OCR错误模式分析。

衍生相关工作

围绕persian-ner-ocr数据集，涌现了一系列具有启示性的衍生研究工作。例如，研究者提出了一种OCR感知的NER模型架构，通过在BPE分词阶段引入字符级纠错模块，显著提升了实体边界的预测准确率。另有工作利用该数据集进行域适应迁移学习，将预训练语言模型（如mBERT或LaBSE）微调至波斯语OCR场景，并验证了混合标注策略的有效性。此外，该数据集还催生了面向实体级评估指标的标准化工具，如OCR-NER联合评测框架，促进了相关社区在低资源语言OCR后处理领域的协作与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集