NYTK-NerKor
收藏数据集概述
数据集名称
NYTK-NerKor
数据集描述
NYTK-NerKor是一个包含100万词条的匈牙利语黄金标准命名实体标注语料库。该数据集包含黄金标准的形态学标注以及命名实体标签。
数据集内容
- 文件结构:数据文件位于
data文件夹下,包含train、devel和test子文件夹,分别存放训练、开发和测试数据。 - 数据来源:数据按类型分为小说、法律、新闻、网络和维基百科,每种类型有不同的数据源。
- 数据划分:训练、开发和测试集的比例约为80%-10%-10%,所有集合均从所有类型和来源中平衡选择。
数据格式
数据文件采用CoNLL-U Plus格式,扩展名为.conllup。文件中的列包括词形、词根、词性、形态特征等。
命名实体标签
命名实体标签遵循CoNLL2002标注标准,包括PER、LOC、MISC、ORG四类,采用IOB2格式进行标注。
许可证
数据集遵循CC-BY-SA 4.0许可证。
引用信息
若使用此数据集,请引用以下文献:
@inproceedings{DBLP:conf/tsd/SimonV21, author = {Eszter Simon and No{{e}}mi Vad{{a}}sz}, editor = {Kamil Ekstein and Frantisek P{{a}}rtl and Miloslav Konop{{i}}k}, title = {Introducing NYTK-NerKor, {A} Gold Standard Hungarian Named Entity Annotated Corpus}, booktitle = {Text, Speech, and Dialogue - 24th International Conference, {TSD} 2021, Olomouc, Czech Republic, September 6-9, 2021, Proceedings}, series = {Lecture Notes in Computer Science}, volume = {12848}, pages = {222--234}, publisher = {Springer}, year = {2021}, doi = {10.1007/978-3-030-83527-9_19}, }




