Karans Named Entity Corpus

github2018-03-11 更新2024-05-31 收录

下载链接：

https://github.com/karans-co/Karans-Named-Entity-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于波斯语命名实体识别的数据集，数据来源于多个新闻网站，包括farsnews、yjc、tabnak。数据集目前正在建设中，已标记的数据包括人名、地点、组织等实体，总数据量和各类实体的数量均已给出，目前完成度为10%。

This is a dataset for Persian Named Entity Recognition (NER), sourced from multiple news websites including farsnews, yjc, and tabnak. The dataset is currently under construction, with annotated data encompassing entities such as person names, locations, and organizations. The total data volume and the quantities of each entity type have been provided, with the current completion rate standing at 10%.

创建时间：

2016-08-31

原始信息汇总

Karans Named Entity Corpus 概述

数据集基本信息

名称: Karans Named Entity Corpus
当前状态: 建设中

实体标签统计

实体标签	当前数量	目标数量	完成进度
PER (人名)	359	5109	7%
LOC (地点)	389	2476	15%
ORG (组织)	448	4181	10%
总计	1196	11766	10%

语料库大小

当前大小: 24160
目标大小: 250000
完成进度: 9%

数据来源

原始文本来源: 来自多个新闻网站，包括 farsnews, yjc, tabnak。

标注机制

标注方法: 已在论文中发布，未来将上传。
当前版本: 由人工初步修订，精确版本即将发布。

搜集汇总

数据集介绍

构建方式

Karans命名实体语料库的构建，依托于来自不同新闻网站的原始文本，包括farsnews、yjc和tabnak等。该数据集的标注机制已有相关论文发表，并将在未来上传。目前，该语料库已由人工进行了初步修订，致力于提高标注质量，预计将发布一个更为精确的版本。

特点

该数据集以波斯语为主，专注于命名实体识别任务，涵盖人名（PER）、地点（LOC）和组织（ORG）三类实体。数据集的构建进度及各类实体的标注数量均有明确记录，目前整体完成度约为百分之十，显示出其在持续建设与完善中。特点在于其专注于波斯语文本，为相关研究提供了珍贵资源。

使用方法

使用Karans命名实体语料库，用户需关注数据集的构建进度和已标注实体数量，以评估其在特定研究或应用中的适用性。数据集的使用包括但不限于基于其进行命名实体识别模型的训练和测试，以及对标注质量的研究分析。待精确版本发布后，用户将能获得更高品质的数据资源。

背景与挑战

背景概述

Karans Named Entity Corpus，作为命名实体识别领域的重要数据资源，其创建旨在为波斯语自然语言处理提供支持。该数据集由Karans团队开发，创建时间未明确标注，但从其进展来看，可见研究人员对该领域的投入与重视。数据集的核心研究问题聚焦于命名实体的识别与分类，其研究成果对波斯语信息提取、文本挖掘等领域产生了显著影响。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：数据收集的多样性与全面性，目前仅从有限新闻网站收集数据，这限制了数据集的覆盖面；标注机制虽已发布但尚未完善，且当前版本的人为修订尚显粗糙，准确版本尚在准备中。此外，在领域问题上，由于波斯语特有的语言结构和表达方式，准确识别和分类命名实体仍是一大挑战。

常用场景

经典使用场景

在自然语言处理领域，尤其是实体识别任务中，Karans Named Entity Corpus被广泛作为训练与评估资源。该数据集以其对波斯语新闻文本中命名实体进行精细标注而独具价值，使得研究人员能够训练模型以识别文本中的人名、地名与组织名等实体类型。

衍生相关工作

基于Karans Named Entity Corpus，研究者们已开展了一系列相关工作，包括实体识别模型的比较研究、跨语言实体识别技术以及实体链接等。这些研究进一步拓展了数据集的应用范围，丰富了波斯语自然语言处理领域的学术成果。

数据集最近研究