NYTK-NerKor

github2023-09-20 更新2024-05-31 收录

下载链接：

https://github.com/nytud/NYTK-NerKor

下载链接

链接失效反馈

官方服务：

资源简介：

NYTK-NerKor语料库是一个包含100万标记的匈牙利黄金标准命名实体标注语料库，涵盖小说、法律、新闻、网络和维基百科等多种文本类型。数据集包含黄金标准的形态学标注和命名实体标签，适用于语言学研究和自然语言处理任务。

The NYTK-NerKor corpus is a Hungarian gold-standard named entity annotated corpus containing 1 million tokens, encompassing a variety of text types such as novels, legal documents, news articles, web content, and Wikipedia entries. The dataset includes gold-standard morphological annotations and named entity tags, making it suitable for linguistic research and natural language processing tasks.

创建时间：

2021-02-18

原始信息汇总

数据集概述

数据集名称

NYTK-NerKor

数据集描述

NYTK-NerKor是一个包含100万词条的匈牙利语黄金标准命名实体标注语料库。该数据集包含黄金标准的形态学标注以及命名实体标签。

数据集内容

文件结构：数据文件位于data文件夹下，包含train、devel和test子文件夹，分别存放训练、开发和测试数据。
数据来源：数据按类型分为小说、法律、新闻、网络和维基百科，每种类型有不同的数据源。
数据划分：训练、开发和测试集的比例约为80%-10%-10%，所有集合均从所有类型和来源中平衡选择。

数据格式

数据文件采用CoNLL-U Plus格式，扩展名为.conllup。文件中的列包括词形、词根、词性、形态特征等。

命名实体标签

命名实体标签遵循CoNLL2002标注标准，包括PER、LOC、MISC、ORG四类，采用IOB2格式进行标注。

许可证

数据集遵循CC-BY-SA 4.0许可证。

引用信息

若使用此数据集，请引用以下文献：

@inproceedings{DBLP:conf/tsd/SimonV21, author = {Eszter Simon and No{{e}}mi Vad{{a}}sz}, editor = {Kamil Ekstein and Frantisek P{{a}}rtl and Miloslav Konop{{i}}k}, title = {Introducing NYTK-NerKor, {A} Gold Standard Hungarian Named Entity Annotated Corpus}, booktitle = {Text, Speech, and Dialogue - 24th International Conference, {TSD} 2021, Olomouc, Czech Republic, September 6-9, 2021, Proceedings}, series = {Lecture Notes in Computer Science}, volume = {12848}, pages = {222--234}, publisher = {Springer}, year = {2021}, doi = {10.1007/978-3-030-83527-9_19}, }

搜集汇总

数据集介绍

构建方式

NYTK-NerKor数据集的构建依托于匈牙利语言学研究中心（NYTK）的资助，由Eszter Simon和Noémi Vadász领导完成。该数据集包含了100万标记的匈牙利语命名实体标注语料库，涵盖了小说、法律、新闻、网络和维基百科等多种文本类型。数据集的构建过程严格遵循了CoNLL-U Plus格式，并采用了Universal Dependencies的形态学标注标准，确保了标注的一致性和准确性。

使用方法

NYTK-NerKor数据集的使用方法较为灵活，适用于多种自然语言处理任务，如命名实体识别、形态学分析等。数据集以CoNLL-U Plus格式提供，用户可以通过标准的`.conllup`文件进行访问。每个文件的第一行定义了全局列信息，包括词形、词根、词性、形态特征和命名实体标注等。用户可以根据需要提取特定文本类型或标注层次的信息，进行模型训练或评估。此外，数据集的标注指南和WebAnno指南也为用户提供了详细的标注规则和流程说明。

背景与挑战

背景概述

NYTK-NerKor数据集是由匈牙利语言学研究中心（Nyelvtudományi Kutatóközpont, NYTK）资助创建的一个匈牙利语命名实体标注语料库，包含100万词条。该数据集由Eszter Simon和Noémi Vadász领导的项目团队于2021年发布，旨在为匈牙利语的命名实体识别（NER）任务提供高质量的标注数据。数据集涵盖了多种文本类型，包括小说、法律、新闻、网页和维基百科，每种类型均经过细致的形态学标注和命名实体标注。该数据集的发布为匈牙利语的自然语言处理研究提供了重要的资源，尤其是在命名实体识别和形态学分析领域具有广泛的应用前景。

当前挑战

NYTK-NerKor数据集在构建和应用过程中面临多重挑战。首先，匈牙利语作为一种形态丰富的语言，其命名实体识别的复杂性较高，尤其是在处理复合词和形态变化时，标注的准确性和一致性难以保证。其次，数据集的构建需要从多种来源（如小说、法律文本、新闻等）中提取并标注数据，不同来源的文本风格和语言特点差异显著，增加了数据处理的难度。此外，数据集的形态学标注层与通用依存关系（Universal Dependencies）的兼容性仍需进一步验证，以确保其在跨语言研究中的适用性。最后，尽管数据集提供了详细的标注指南，但匈牙利语的标注标准和国际标准的对齐仍是一个亟待解决的问题。

常用场景

经典使用场景

NYTK-NerKor数据集在自然语言处理领域中被广泛应用于匈牙利语的命名实体识别任务。该数据集包含了来自小说、法律、新闻、网页和维基百科等多种文本类型的100万标记，提供了丰富的上下文信息。研究者可以利用该数据集训练和评估命名实体识别模型，特别是在处理匈牙利语这种形态复杂的语言时，数据集的高质量标注为模型性能的提升提供了坚实的基础。

解决学术问题

NYTK-NerKor数据集解决了匈牙利语命名实体识别研究中缺乏高质量标注数据的问题。通过提供包含多种文本类型和丰富形态学标注的语料，该数据集为研究者提供了标准化的评估基准，推动了匈牙利语自然语言处理技术的发展。此外，数据集的标注遵循CoNLL2002标准，确保了与其他语言命名实体识别研究的可比性，促进了跨语言研究的进展。

实际应用

在实际应用中，NYTK-NerKor数据集为匈牙利语的文本分析工具开发提供了重要支持。例如，该数据集可以用于构建匈牙利语的新闻摘要系统、法律文本分析工具以及多语言信息检索系统。特别是在欧盟法律文本和匈牙利本地新闻的处理中，数据集的多样性和高质量标注使得相关应用能够更准确地识别和理解文本中的关键实体信息。

数据集最近研究