Swedish manually annotated NER

github2023-12-14 更新2024-05-31 收录

下载链接：

https://github.com/klintan/swedish-ner-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

来自Spraakbanken的2012年网络新闻，半手动标注并适配用于CoreNLP瑞典语NER。半手动定义为：从瑞典地名录引导，然后由两位独立的母语为瑞典语的标注者手动校正/审查。未计算标注者一致性。可能仍存在数据质量问题和不平衡的类别。

The 2012 web news from Spraakbanken, semi-manually annotated and adapted for CoreNLP Swedish NER. Semi-manual is defined as: guided by the Swedish place name directory, then manually corrected/reviewed by two independent native Swedish annotators. Inter-annotator agreement was not calculated. There may still be data quality issues and imbalanced categories.

创建时间：

2015-11-08

原始信息汇总

瑞典语手动标注的NER数据集概述

数据集来源

数据集来源于Spraakbanken的Webbnyheter 2012。

标注方法

数据集采用半手动标注方法，首先从瑞典语地名词典中引导，随后由两位独立的母语为瑞典语的标注者手动校正和审查。

标注一致性

未计算标注者之间的一致性。

数据质量

数据可能存在质量问题和类别不平衡。

类别划分

数据集包含四个类别：PER（人名）、ORG（组织名）、LOC（地点名）和MISC（杂项）。

错误反馈

如发现错误，建议创建拉取请求以供修正。

搜集汇总

数据集介绍

构建方式

Swedish manually annotated NER数据集的构建过程采用了半自动化的方法。初始阶段，数据集通过瑞典地名录进行自举（bootstrap）生成，随后由两位独立的母语为瑞典语的标注者进行手动校正和审查。这一过程确保了数据的准确性和可靠性，尽管未进行标注者一致性计算，但通过双重审查机制，显著提升了数据的质量。

使用方法

Swedish manually annotated NER数据集适用于瑞典语命名实体识别任务的研究与开发。用户可以通过访问Spraakbanken的官方网站获取数据集，并根据需要进行下载和使用。若在数据使用过程中发现错误，用户可通过提交pull request的方式参与数据集的改进，从而共同提升数据集的质量。

背景与挑战

背景概述

Swedish manually annotated NER数据集由瑞典的Språkbanken机构于2012年创建，旨在为瑞典语命名实体识别（NER）任务提供高质量的标注数据。该数据集基于Webbnyheter 2012语料库，经过半自动化的标注过程，即首先通过瑞典地名录进行初步标注，随后由两名独立的瑞典语母语标注者进行手动校正和审查。尽管未计算标注者间的一致性，但该数据集在瑞典语自然语言处理领域具有重要影响力，尤其是在命名实体识别任务中，涵盖了PER（人名）、ORG（组织名）、LOC（地名）和MISC（其他）四种类别。

当前挑战

Swedish manually annotated NER数据集在构建和应用过程中面临多重挑战。首先，尽管经过手动校正，数据集中仍可能存在质量问题和类别不平衡现象，这对模型的训练和评估提出了挑战。其次，由于标注过程依赖于地名录的初步标注，可能导致某些实体类型的覆盖不足或错误标注。此外，瑞典语作为一门形态丰富的语言，其复杂的语法结构和词汇变化进一步增加了命名实体识别的难度。这些挑战不仅影响了数据集的整体质量，也对相关领域的研究提出了更高的要求。

常用场景

经典使用场景

Swedish manually annotated NER数据集在自然语言处理领域中被广泛用于瑞典语命名实体识别（NER）的研究。该数据集通过半自动化的方式标注了新闻文本中的命名实体，涵盖了人物（PER）、组织（ORG）、地点（LOC）和其他（MISC）四大类别。研究人员通常利用该数据集来训练和评估瑞典语NER模型，特别是在处理瑞典语文本时，该数据集提供了高质量的标注数据，帮助提升模型的准确性和鲁棒性。

解决学术问题

该数据集解决了瑞典语命名实体识别中的标注数据稀缺问题。由于瑞典语资源相对较少，高质量的标注数据集尤为珍贵。通过提供经过人工校正的标注数据，Swedish manually annotated NER数据集为研究人员提供了可靠的基准，使得他们能够更有效地开发针对瑞典语的NER模型，并推动该领域的研究进展。

实际应用

在实际应用中，Swedish manually annotated NER数据集被广泛应用于瑞典语文本的信息提取任务。例如，新闻机构可以利用该数据集训练模型，自动识别新闻中的关键实体，从而提升新闻分类和检索的效率。此外，该数据集还可用于构建瑞典语的智能助手，帮助用户快速获取相关信息，提升用户体验。

数据集最近研究