five

konec

收藏
github2023-05-12 更新2024-05-31 收录
下载链接:
https://github.com/korean-named-entity/konec
下载链接
链接失效反馈
官方服务:
资源简介:
konec是一个韩国命名实体语料库,包含了KLUE Benchmark中公开的完整原始句子,附有150个详细分类的命名实体标签。

KONEC is a Korean named entity corpus that encompasses the complete original sentences disclosed in the KLUE Benchmark, accompanied by 150 meticulously categorized named entity labels.
创建时间:
2022-08-15
原始信息汇总

数据集概述

数据集名称

  • konec: Korean Named Entity Corpus

数据集描述

  • konec是一个韩语实体名语料库,包含在KLUE Benchmark中公开的完整原始句子,附有150个详细分类的实体名标签。

数据集详细信息

规模

  • 总句子数:26008
  • 训练集:21008
  • 开发集:5000

原始数据来源

  • 数据来源:wikitree, nsmc
  • 文件格式:tsv
  • 文件名:klue-ner-v1.1_dev.tsv, klue-ner-v1.1_train.tsv

数据集格式

  • 句子唯一编号:与klue-ner-v1.1保持一致
  • 采用格式:BIO格式
  • 注释行格式:konec提供原始句子信息,与klue-ner-v1.1的行内标记信息不同

标签集与指南

  • 标签集:基于国立国语院的150个详细分类实体名标签集
  • 指南:参考韩国电子通信研究院(ETRI)的详细分类实体名指南2018及国立国语院2020年和2021年的实体名分析语料库构建指南

统计信息

  • 统计文件:ne_form_label_freq_1000.tsv, ne_form_label_freq.tsv
  • 统计列:form, label, len, freq, train_freq, dev_freq, form_freq, num_label, label_freq

参考文献

  • 정유남, 송영숙, 유현조(2023), 한국어 중첩 개체명의 말뭉치 구축 연구, 국어학-.105 : 309-344
搜集汇总
数据集介绍
main_image_url
构建方式
konec数据集的构建基于KLUE Benchmark的命名实体标注语料库,通过对原始句子进行150个细粒度实体标签的标注。构建过程中,修正了KLUE NER v1.1中的格式错误和原文错误,确保了数据的高质量。数据集以BIO格式存储,每个句子都附有唯一的标识符,并且提供了详细的原始句子信息。
特点
konec数据集的特点在于其广泛的实体类别覆盖和精细的标注体系。数据集采用了150个细粒度的实体标签,这些标签基于韩国国立国语院的分类标准。此外,数据集提供了详细的统计信息,包括高频实体列表和实体标签的频率分布,为研究者和开发者提供了丰富的数据分析工具。
使用方法
konec数据集的使用方法包括下载和解析提供的TSV文件。用户可以通过GitHub获取数据集的训练和开发集文件,这些文件包含了详细的实体标注信息。数据集适用于自然语言处理任务,如命名实体识别和实体链接。研究者可以利用这些数据来训练和评估机器学习模型,特别是在处理韩语文本时。
背景与挑战
背景概述
konec(Korean Named Entity Corpus)是KLUE Benchmark中的一个重要组成部分,专注于韩语命名实体识别任务。该数据集由韩国国立国语院(National Institute of Korean Language)和相关研究机构共同构建,旨在为韩语自然语言处理提供高质量的标注数据。konec数据集基于KLUE NER v1.1版本,对其进行了格式和原文错误的修正,并扩展了150个细粒度实体标签,涵盖了广泛的韩语命名实体类别。该数据集的构建时间为2021年,主要研究人员包括정유남、송영숙和유현조等学者。konec的发布为韩语命名实体识别、信息抽取等任务提供了重要的数据支持,推动了韩语自然语言处理领域的研究进展。
当前挑战
konec数据集在构建和应用过程中面临多重挑战。首先,韩语作为一种形态丰富的语言,其命名实体的识别难度较高,尤其是在处理复合词、缩略语和同音异义词时,标注的准确性和一致性难以保证。其次,数据集的构建依赖于大量的人工标注,尽管采用了严格的标注指南,但在处理150个细粒度实体类别时,仍存在标注歧义和主观性问题。此外,数据集的规模虽然较大,但在某些低频实体类别上,数据分布不均衡,可能导致模型在这些类别上的表现不佳。最后,konec数据集虽然修正了KLUE NER v1.1中的错误,但在实际应用中,仍需进一步验证其在不同任务和场景下的泛化能力。
常用场景
经典使用场景
在自然语言处理领域,`konec`数据集主要用于韩语命名实体识别(NER)任务。该数据集包含了从KLUE基准测试中提取的韩语句子,并标注了150种细粒度的命名实体标签。研究者可以利用该数据集训练和评估韩语NER模型,特别是在处理复杂实体和嵌套实体时,`konec`提供了丰富的标注信息,帮助模型更好地理解和识别韩语中的命名实体。
实际应用
在实际应用中,`konec`数据集被广泛用于韩语信息抽取、机器翻译、问答系统等任务。例如,在韩语新闻分析中,利用`konec`训练的NER模型可以自动识别新闻中的关键人物、地点和组织,从而帮助用户快速获取重要信息。此外,该数据集还可用于韩语社交媒体分析,识别用户生成内容中的命名实体,为情感分析和舆情监控提供支持。
衍生相关工作
`konec`数据集衍生了许多相关的研究工作。例如,基于该数据集的研究者开发了多种韩语NER模型,如基于BERT的预训练模型和基于深度学习的序列标注模型。这些模型在韩语NER任务中表现出色,推动了韩语自然语言处理技术的发展。此外,`konec`还为韩语嵌套实体识别提供了新的研究方向,相关研究成果已在多个国际会议和期刊上发表。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作