konec

github2023-05-12 更新2024-05-31 收录

下载链接：

https://github.com/korean-named-entity/konec

下载链接

链接失效反馈

官方服务：

资源简介：

konec是一个韩国命名实体语料库，包含了KLUE Benchmark中公开的完整原始句子，附有150个详细分类的命名实体标签。

KONEC is a Korean named entity corpus that encompasses the complete original sentences disclosed in the KLUE Benchmark, accompanied by 150 meticulously categorized named entity labels.

创建时间：

2022-08-15

原始信息汇总

数据集概述

数据集名称

konec: Korean Named Entity Corpus

数据集描述

konec是一个韩语实体名语料库，包含在KLUE Benchmark中公开的完整原始句子，附有150个详细分类的实体名标签。

数据集详细信息

规模

总句子数：26008
训练集：21008
开发集：5000

原始数据来源

数据来源：wikitree, nsmc
文件格式：tsv
文件名：klue-ner-v1.1_dev.tsv, klue-ner-v1.1_train.tsv

数据集格式

句子唯一编号：与klue-ner-v1.1保持一致
采用格式：BIO格式
注释行格式：konec提供原始句子信息，与klue-ner-v1.1的行内标记信息不同

标签集与指南

标签集：基于国立国语院的150个详细分类实体名标签集
指南：参考韩国电子通信研究院（ETRI）的详细分类实体名指南2018及国立国语院2020年和2021年的实体名分析语料库构建指南

统计信息

统计文件：ne_form_label_freq_1000.tsv, ne_form_label_freq.tsv
统计列：form, label, len, freq, train_freq, dev_freq, form_freq, num_label, label_freq

参考文献

정유남, 송영숙, 유현조(2023), 한국어 중첩 개체명의 말뭉치 구축 연구, 국어학-.105 : 309-344

搜集汇总

数据集介绍

构建方式

konec数据集的构建基于KLUE Benchmark的命名实体标注语料库，通过对原始句子进行150个细粒度实体标签的标注。构建过程中，修正了KLUE NER v1.1中的格式错误和原文错误，确保了数据的高质量。数据集以BIO格式存储，每个句子都附有唯一的标识符，并且提供了详细的原始句子信息。

特点

konec数据集的特点在于其广泛的实体类别覆盖和精细的标注体系。数据集采用了150个细粒度的实体标签，这些标签基于韩国国立国语院的分类标准。此外，数据集提供了详细的统计信息，包括高频实体列表和实体标签的频率分布，为研究者和开发者提供了丰富的数据分析工具。

使用方法

konec数据集的使用方法包括下载和解析提供的TSV文件。用户可以通过GitHub获取数据集的训练和开发集文件，这些文件包含了详细的实体标注信息。数据集适用于自然语言处理任务，如命名实体识别和实体链接。研究者可以利用这些数据来训练和评估机器学习模型，特别是在处理韩语文本时。

背景与挑战

背景概述

konec（Korean Named Entity Corpus）是KLUE Benchmark中的一个重要组成部分，专注于韩语命名实体识别任务。该数据集由韩国国立国语院（National Institute of Korean Language）和相关研究机构共同构建，旨在为韩语自然语言处理提供高质量的标注数据。konec数据集基于KLUE NER v1.1版本，对其进行了格式和原文错误的修正，并扩展了150个细粒度实体标签，涵盖了广泛的韩语命名实体类别。该数据集的构建时间为2021年，主要研究人员包括정유남、송영숙和유현조等学者。konec的发布为韩语命名实体识别、信息抽取等任务提供了重要的数据支持，推动了韩语自然语言处理领域的研究进展。

当前挑战

konec数据集在构建和应用过程中面临多重挑战。首先，韩语作为一种形态丰富的语言，其命名实体的识别难度较高，尤其是在处理复合词、缩略语和同音异义词时，标注的准确性和一致性难以保证。其次，数据集的构建依赖于大量的人工标注，尽管采用了严格的标注指南，但在处理150个细粒度实体类别时，仍存在标注歧义和主观性问题。此外，数据集的规模虽然较大，但在某些低频实体类别上，数据分布不均衡，可能导致模型在这些类别上的表现不佳。最后，konec数据集虽然修正了KLUE NER v1.1中的错误，但在实际应用中，仍需进一步验证其在不同任务和场景下的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，`konec`数据集主要用于韩语命名实体识别（NER）任务。该数据集包含了从KLUE基准测试中提取的韩语句子，并标注了150种细粒度的命名实体标签。研究者可以利用该数据集训练和评估韩语NER模型，特别是在处理复杂实体和嵌套实体时，`konec`提供了丰富的标注信息，帮助模型更好地理解和识别韩语中的命名实体。

实际应用

在实际应用中，`konec`数据集被广泛用于韩语信息抽取、机器翻译、问答系统等任务。例如，在韩语新闻分析中，利用`konec`训练的NER模型可以自动识别新闻中的关键人物、地点和组织，从而帮助用户快速获取重要信息。此外，该数据集还可用于韩语社交媒体分析，识别用户生成内容中的命名实体，为情感分析和舆情监控提供支持。

衍生相关工作

`konec`数据集衍生了许多相关的研究工作。例如，基于该数据集的研究者开发了多种韩语NER模型，如基于BERT的预训练模型和基于深度学习的序列标注模型。这些模型在韩语NER任务中表现出色，推动了韩语自然语言处理技术的发展。此外，`konec`还为韩语嵌套实体识别提供了新的研究方向，相关研究成果已在多个国际会议和期刊上发表。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集