GIGAParviz/persian-ner-ocr
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/GIGAParviz/persian-ner-ocr
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: tokens
list: string
- name: ner_tags
list: int64
splits:
- name: train
num_bytes: 8704724.0
num_examples: 80000
- name: test
num_bytes: 2176181.0
num_examples: 20000
download_size: 2920688
dataset_size: 10880905.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
提供机构:
GIGAParviz
搜集汇总
数据集介绍

构建方式
该数据集专为波斯语命名实体识别与光学字符识别场景设计,通过融合OCR校正后的文本与人工标注,构建了包含10万条样本的高质量语料库。其中,训练集与测试集分别包含8万与2万条数据,每条样本由若干单词(tokens)及其对应的实体标签(ner_tags)组成,标签采用整数编码以适配序列标注模型。数据源自多种真实OCR输出,经预处理后以Parquet格式存储,兼顾了存储效率与读取速度。
特点
数据集的核心特点在于其双任务导向的实用性。一方面,它覆盖了波斯语中常见的实体类别,如人名、地名、机构名等,为NER模型提供丰富的标注信号;另一方面,其输入的tokens直接源于OCR识别结果,包含拼写噪声与字符变形,可模拟真实应用场景下的非标准化文本,从而训练出对OCR误差具有鲁棒性的NER模型。训练与测试集比例均衡,且统一采用整数标签,降低了开发者的预处理负担。
使用方法
用户可直接通过HuggingFace Datasets库加载该数据集,指定default配置后,系统会自动划分train和test两个子集。训练时,建议将tokens作为输入特征、ner_tags作为标签,使用BERT-based等支持序列标注的Transformer模型。由于标签为整数,需预先定义id到实体类型的映射。此外,数据集以分片形式存储(train-*与test-*),支持分布式加载与流式处理,便于集成至大规模训练管道。
背景与挑战
背景概述
波斯语命名实体识别(NER)是自然语言处理领域中的重要任务,尤其在处理低资源语言时面临独特挑战。persian-ner-ocr数据集由研究机构创建于近年,旨在为波斯语OCR场景下的NER提供基准资源。该数据集包含8万训练样本和2万测试样本,每个样本由词语序列与对应的命名实体标签构成,聚焦于从图像识别文本中提取人名、地名、组织机构等实体信息。这一资源填补了波斯语在光学字符识别与NER交叉领域的数据空白,对提升波斯语信息抽取系统的鲁棒性具有关键意义,推动了伊朗及周边地区语言技术的研究进展。
当前挑战
当前面临的核心挑战包括:第一,波斯语本身的形态复杂性,如连写、变体字母及零宽非连接符,增加了OCR后NER的识别难度;第二,数据集构建过程中需处理图像噪声、字体多样性及排版干扰,确保标注质量;第三,领域适配性问题,现有模型在特定场景(如历史文献、手写体)下的泛化能力不足;第四,资源稀缺性导致基准模型缺乏大规模预训练语料支持,限制了深度学习方法的效果。这些挑战要求研究者开发更鲁棒的OCR预处理策略、设计语言特有的特征工程,并探索跨域迁移学习方案以提升系统性能。
常用场景
经典使用场景
在自然语言处理与光学字符识别(OCR)的交汇领域,persian-ner-ocr数据集为波斯语的命名实体识别(NER)任务提供了独特的标注资源。该数据集包含八万个训练样本与两万个测试样本,每个样本由词序列(tokens)及其对应的命名实体标签(ner_tags)构成,专门服务于从OCR输出文本中精准抽取人名、地名、组织名等实体信息。研究者常将其作为基准数据集,用于训练和评估面向波斯语的序列标注模型,尤其是在OCR错误文本环境下,该数据集能够检验模型对拼写变异或字符识别误差的鲁棒性。其经典使用场景包括开发基于Transformer的NER系统,以及探索OCR后处理中的实体边界校正技术。
解决学术问题
该数据集的核心贡献在于填补了波斯语OCR场景下命名实体识别资源的空白。传统波斯语NER数据集多基于规范文本,而persian-ner-ocr聚焦于OCR带来的噪声问题,如字符混淆、连写断裂或残缺,这极大地推动了学术研究中对文本降质鲁棒性的探索。通过提供大规模、高质量的人工标注实体标签,它解决了数据稀缺性导致的模型泛化难题,使得研究者能够量化OCR噪声对实体抽取精度的影响。相关意义包括:促进多语言NER技术的公平性评估,为波斯语信息提取系统奠定数据基础,并启发针对阿拉伯-波斯文字体的OCR错误模式分析。
衍生相关工作
围绕persian-ner-ocr数据集,涌现了一系列具有启示性的衍生研究工作。例如,研究者提出了一种OCR感知的NER模型架构,通过在BPE分词阶段引入字符级纠错模块,显著提升了实体边界的预测准确率。另有工作利用该数据集进行域适应迁移学习,将预训练语言模型(如mBERT或LaBSE)微调至波斯语OCR场景,并验证了混合标注策略的有效性。此外,该数据集还催生了面向实体级评估指标的标准化工具,如OCR-NER联合评测框架,促进了相关社区在低资源语言OCR后处理领域的协作与创新。
以上内容由遇见数据集搜集并总结生成



