konne

github2023-05-13 更新2024-05-31 收录

下载链接：

https://github.com/korean-named-entity/konne

下载链接

链接失效反馈

官方服务：

资源简介：

konne是一个韩语嵌套实体名语料库，包含了实体名（如人物、组织、地点）、数量及时表达（如数量、时间、日期）以及其他百科全书对象（如事件、人工物、植物、动物、物质名）、文明概念（如艺术、建筑、服饰、文化、饮料、食品、语言、职业、职位、运动、部落等）和术语（如理论、领域、术语）。该语料库分析了KLUE基准的实体名标注语料库中公开的全部原始句子中的嵌套实体结构，并附有150个细分实体名标签。

Konne is a Korean nested named entity corpus, encompassing named entities (such as persons, organizations, locations), quantities and temporal expressions (such as quantities, times, dates), as well as other encyclopedic objects (such as events, artifacts, plants, animals, substance names), cultural concepts (such as art, architecture, clothing, culture, beverages, food, language, occupations, positions, sports, tribes), and terminology (such as theories, fields, terms). This corpus analyzes the nested entity structures in all original sentences from the publicly available named entity annotation corpus of the KLUE benchmark, and includes 150 detailed named entity tags.

创建时间：

2022-10-06

原始信息汇总

数据集概述

数据集名称

konne: Korean Nested Named Entity Corpus

数据集内容

实体类型：包括人物(PS)、组织(OG)、地点(LC)、数量(QT)、时间(TI和DT)、事件(EV)、人工物(AF)、植物(PT)、动物(AM)、物质(MT)、文明概念(CV)、理论(TR)、学术领域(FD)、术语(TM)等。
数据来源：基于KLUE的实体标注语料库，包括原始句子中的实体嵌套结构分析和150个细分实体标签的附加。

数据规模

总句子数：26008
训练集：21008句
验证集：5000句

数据格式

原始格式：JSONL，每行包含一个句子的信息，text字段为原始句子，label字段以[begin, end, label]数组形式提供实体标签信息。
转换格式：符合国立国语院实体语料库JSON模式的格式。

标签集和指南

标签集：基于国立国语院的150个细分分类实体标签集。
指南：遵循国立国语院和韩国电子通信研究院的相关指南。

统计信息

实体频率统计：提供高频1000个实体列表和完整实体频率列表，包含实体形态、标签、长度、频率等详细信息。

参考文献

정유남, 송영숙, 유현조(2023), 한국어 중첩 개체명의 말뭉치 구축 연구, 국어학 105, 309-344.

搜集汇总

数据集介绍

构建方式

`konne`数据集的构建基于KLUE基准的命名实体标注语料库，通过对原始句子中的嵌套结构进行深入分析，并附加了150个细分类别的实体标签。构建过程中，首先对KLUE NER v1.1中的格式错误和原文错误进行了修正，随后利用doccano工具进行嵌套实体标注，最终形成了包含丰富嵌套结构的韩国语命名实体语料库。

使用方法

`konne`数据集的使用方法主要围绕其JSONL格式的语料文件展开。每个句子以JSON格式存储，包含原始文本和实体标签信息。用户可以通过解析这些文件，提取出文本中的实体及其嵌套结构。数据集适用于自然语言处理任务，如命名实体识别、实体分类和嵌套实体解析等。此外，数据集还提供了详细的标签集和指南，帮助用户更好地理解和应用数据集中的标注信息。

背景与挑战

背景概述

`konne`数据集是韩国语嵌套命名实体语料库，专注于韩国语文本中的命名实体识别。该数据集由韩国国立国语院及相关研究机构于2023年创建，主要研究人员包括정유남、송영숙和유현조。`konne`数据集的核心研究问题在于解决韩国语文本中复杂嵌套命名实体的识别与分类问题，涵盖了人物、组织、地点、数量、时间表达、事件、人工制品、植物、动物、物质名称、文明概念及术语等多个类别。该数据集的构建基于KLUE基准测试的命名实体注释语料库，并通过进一步的细粒度标注和嵌套结构分析，显著提升了韩国语命名实体识别的精度和广度，对自然语言处理领域尤其是韩国语文本处理具有重要的推动作用。

当前挑战

`konne`数据集在构建和应用过程中面临多重挑战。首先，韩国语文本中嵌套命名实体的复杂性使得标注工作异常困难，尤其是在处理多层次嵌套结构时，标注的一致性和准确性难以保证。其次，数据集的构建依赖于KLUE基准测试的原始数据，而原始数据中存在格式错误和文本错误，需进行大量修正工作，增加了数据清洗和预处理的难度。此外，150个细粒度实体类别的标注标准制定和实际标注过程中，如何确保标注人员对复杂实体类别的理解和标注的一致性，也是一个亟待解决的问题。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，`konne`数据集被广泛应用于韩语文本的命名实体识别任务中。该数据集通过提供丰富的嵌套实体标注，使得研究者能够深入分析韩语文本中复杂的实体结构，尤其是在处理多层次、多类型的实体嵌套时表现出色。

解决学术问题

`konne`数据集解决了韩语文本中命名实体识别的复杂性问题，特别是在处理嵌套实体和细粒度实体分类时。通过提供150个细分类别的实体标注，该数据集为研究者提供了一个标准化的基准，推动了韩语自然语言处理技术的发展，尤其是在实体识别和分类的准确性和效率方面。

实际应用

在实际应用中，`konne`数据集被用于构建和优化韩语文本分析工具，如信息抽取系统、问答系统和机器翻译系统。这些系统依赖于准确的实体识别来提升其性能，特别是在处理新闻、社交媒体和学术文献等多样化文本时，`konne`数据集的高质量标注为这些应用提供了坚实的基础。

数据集最近研究