Persian-NER-GUI-Classification

Hugging Face2025-08-23 更新2025-08-24 收录

下载链接：

https://huggingface.co/datasets/MVesalA/Persian-NER-GUI-Classification

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个波斯语的数据集，用于命名实体识别任务。数据集包含了文本和实体存在性的标注信息。它由训练集、验证集和测试集组成，分别包含了12788、2740和2741个样本。数据集是从一个GitHub项目中的波斯语NER数据集转换而来的。

创建时间：

2025-08-15

原始信息汇总

数据集概述

基本信息

数据集名称: Persian-NER-GUI-Classification
语言: 波斯语 (fa)
数据格式: 结构化文本数据

数据特征

文本字段: text (字符串类型)
标签字段: existence (整型)

数据规模

训练集

样本数量: 12,788
数据大小: 3,533,841 字节

验证集

样本数量: 2,740
数据大小: 747,688 字节

测试集

样本数量: 2,741
数据大小: 761,388 字节

总体统计

总下载大小: 2,577,044 字节
总数据集大小: 5,042,917 字节
总样本数量: 17,269

数据来源

基于 https://github.com/Mostafa-Modaberi/Persian-NER-GUI 数据集生成
预处理过程详见:
- https://github.com/MVesalA/LLM/blob/main/Named-Entity-Recognition/1_preprocess.ipynb
- https://github.com/MVesalA/LLM/blob/main/Named-Entity-Recognition/2_preprocess.ipynb

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，波斯语命名实体识别任务面临标注资源稀缺的挑战。该数据集基于GitHub开源项目Persian-NER-GUI的原始标注数据，通过系统化的预处理流程构建而成。具体采用两阶段数据处理方法：首先对原始标注进行清洗和标准化，随后转换为符合HuggingFace平台要求的序列化格式，最终形成包含训练集、验证集和测试集的标准化数据集。

特点

该数据集专为波斯语图形用户界面命名实体识别设计，其最显著特点是采用二进制分类标签标识文本中是否存在目标实体。数据集包含18,269个文本样本，划分为12,788条训练数据、2,740条验证数据和2,741条测试数据，总规模达5.04MB。所有文本均使用波斯语编写，为研究波斯语NER任务提供了高质量的标注资源。

使用方法

研究者可通过HuggingFace数据集库直接加载该数据集，使用标准的三划分模式进行模型训练与评估。数据集支持端到端的神经网络模型训练，特别适用于二元分类任务的基准测试。用户可依据文本中的'existence'标签判断实体存在性，结合预训练语言模型进行微调，从而构建高效的波斯语实体识别系统。

背景与挑战

背景概述

波斯语命名实体识别与图形用户界面分类数据集由伊朗研究团队于2023年构建，旨在解决波斯语自然语言处理中实体识别与界面元素分类的双重任务。该数据集源自GitHub开源项目Persian-NER-GUI，通过系统化标注文本中的命名实体与图形界面组件，填补了中东地区语言技术在人机交互领域的空白。其多模态标注体系为波斯语信息提取和智能界面设计提供了重要基准，推动了非英语自然语言处理技术的发展。

当前挑战

该数据集核心挑战在于波斯语复杂的形态变化与界面术语的多义性处理，需同时解决命名实体边界模糊和GUI元素语义重叠问题。构建过程中面临标注一致性维护的困难，特别是波斯语从右向左书写特性与拉丁字母界面术语的混合标注。数据稀疏性和领域专业术语的标准化亦构成显著障碍，需通过多轮迭代优化标注协议来保证数据质量。

常用场景

经典使用场景

在波斯语自然语言处理领域，该数据集为命名实体识别任务提供了标准化评估基准。研究者通过其标注体系能够有效训练序列标注模型，识别文本中的人名、地名、组织机构等实体类别，显著提升了波斯语信息抽取技术的精确度与召回率。

实际应用

实际应用中，该数据集支撑了波斯语搜索引擎的实体检索优化、智能客服系统的用户意图解析，以及新闻媒体内容自动标签生成。在金融领域辅助实现波斯语商业文档的自动结构化处理，为中东地区多语言信息技术应用提供了重要数据支撑。

衍生相关工作

基于该数据集衍生了多项经典研究，包括结合BERT架构的波斯语实体识别模型PersianNER、基于多任务学习的跨语言实体标注框架，以及采用对抗训练技术的领域自适应方法。这些工作显著推动了波斯语处理技术在学术会议和期刊中的研究成果产出。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集