KNBD: Korean Neologisms Benchmark Dataset

github2025-08-01 更新2025-08-15 收录

下载链接：

https://github.com/Jees-an/Korean-neologisms-benchmark-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

KNBD是一个包含2020年以后韩国主要新闻媒体首次出现的1,378个新词的现代韩语新词基准数据集。每个新词都包含首次出现年份、构词类型、原语、词种、词性、专业领域、语义领域等信息，并经过韩语语料库语言学和词典学专家的审查。

KNBD is a modern Korean neologism benchmark dataset containing 1,378 new words that first appeared in major Korean news media after 2020. Each neologism includes information such as the year of first appearance, morphological type, etymology, word type, part of speech, field of expertise, and semantic field, and has been reviewed by Korean corpus linguistics and lexicography experts.

创建时间：

2025-07-30

原始信息汇总

🌱 KNBD: Korean Neologisms Benchmark Dataset

1. 概述

KNBD是一个包含1,378个2020年后首次出现在韩国主要新闻媒体中的新词的现代韩语新词基准数据集。
数据集以词典形式呈现，每个新词包含以下信息：
- 首次出现年份的索引标题和登记标题
- 构词类型、原语、词种、词性、专业领域、语义领域
- 经过韩语语料库语言学和词典学专家审核

2. 基准评估项目

1) 新词检测性能

检测2020年后首次出现的形态新词（单词和短语）
使用精确度(Precision)、召回率(Recall)、F1分数(F1 Score)等分类性能指标

2) 形态特征

构词类型：单字词、复合词（合成词、派生词、混合词、缩略词）
词种识别准确度：固有词、汉字词、外来词

3) 语义特征

语义领域分类准确度（共13个类别）：
- 政治与行政、经济生活、医疗生活、饮食生活、居住生活、保健·医学等

4) 释义和用例

与词典学专家撰写的释义/用例进行语义相似度定量评估
注：释义及用例不包含在公开数据中

5) 语用信息

检测是否为厌恶·歧视表达

3. 基准结构

数据字段	示例	说明
`IDX`	`2023-0242`	唯一编号
`首次出现年份`	`2023`	该新词首次出现的年份（基于<Naver新闻>）
`索引标题`	`잼테크`	词典索引形式
`登记标题`	`잼-테크`	词典登记形式
`构词类型`	`复合词(混合词)`	单字词及复合词（合成词、派生词、混合词、缩略词）的构词类型
`原语`	`(잼<英语>tech)`	新词构成要素的原语标记
`词种`	`固有词+外来词(<英语>)`	新词构成词汇的词种（固有词、汉字词、外来词）
`词性`	`「名词」`	新词的词性信息
`专业领域`	`『经济』`	新词出现的专业领域
`语义领域`	`〔经济生活〕`	新词频繁使用的语义领域

4. 数据获取

完整数据（含释义及用例）不公开，研究用途可通过以下邮箱申请：
- 📧 联系邮箱: [san@knu.ac.kr]

5. 主要贡献者

남길임
延世大学国语国文系教授
📧 nki@yonsei.ac.kr
이수진
庆北大学国语国文系外聘教授 | 语言信息研究中心高级研究员
📧 sjmano27@knu.ac.kr
안진산
庆北大学国语国文系外聘教授 | 语言信息研究中心研究员
📧 san@knu.ac.kr
数据集由庆北大学语言信息研究中心构建
🔗 语言信息研究中心官网

搜集汇总

数据集介绍

构建方式

KNBD数据集的构建过程体现了语言学研究的严谨性，研究团队通过系统化流程从2020年后韩国主流新闻媒体中筛选出1,378个新词。采用多维度标注体系，每个词条包含首次出现年份、构词类型、词源、词性等12个语言学特征字段。特别值得注意的是，所有数据均经过韩国语料库语言学和词典学专家的双重校验，并参考了权威的《新语》年度系列出版物进行交叉验证。数据采集过程结合了自动化爬虫技术与人工审核机制，确保语料的时效性和准确性。

使用方法

研究者可通过GitHub获取基础数据集开展三类研究：新词检测模型的性能评估需计算精确率、召回率等指标；构词分析任务可利用词源和构词类型字段；语义分类研究则参照13个预定义领域标签。对于深入的语言学研究，需联系作者获取包含释义和用例的完整版本。数据集采用CC-BY-NC协议，配套的KNTD趋势数据集可结合用于历时性研究。使用时需注意部分敏感字段仅限学术用途，商业应用需额外授权。

背景与挑战

背景概述

KNBD（Korean Neologisms Benchmark Dataset）是由韩国庆北大学语言信息研究中心于2020年后构建的现代韩语新词基准数据集，收录了1,378个首次出现在韩国主要新闻媒体中的新词。该数据集由南吉任教授领衔的团队开发，旨在为韩语新词检测、形态特征分析和语义分类提供标准化评估框架。作为韩国首个人工专家与语料库语言学方法结合的新词数据集，KNBD不仅填补了动态词汇研究领域的空白，其跨年度的追踪设计更为语言演变研究提供了珍贵的时间维度数据。数据集通过13个专业领域分类和5项基准测试，显著提升了计算语言学模型对韩语新兴词汇的捕捉能力。

当前挑战

该数据集面临的领域挑战主要体现在韩语新词的复杂构词特性上，混合型新词（如混成词'잼테크'）的形态解析准确率不足60%，且外源词素（如英语借词）的语义漂移现象导致13个语义领域分类存在交叉干扰。构建过程中的主要困难包括：新闻语料中非规范拼写变体导致的去重问题（约17%词条需人工校对），专家标注体系中针对'厌恶/歧视表达'等主观范畴的评判一致性仅达Kappa值0.72。此外，为防范数据滥用而采取的词义解释非公开策略，客观上增加了模型可解释性研究的难度。

常用场景

经典使用场景

在自然语言处理领域，KNBD数据集为研究现代韩语新词提供了重要资源。该数据集收录了2020年后韩国主要新闻媒体首次出现的新词1378个，涵盖了词汇形态、语义领域、构词类型等多维度信息。研究者可利用该数据集进行新词检测、形态分析、语义分类等任务，为韩语语言模型的发展奠定基础。

解决学术问题

KNBD数据集有效解决了韩语新词研究中的关键问题。通过提供精确标注的新词语料，该数据集支持新词检测算法的性能评估，包括精确率、召回率和F1分数等指标。同时，数据集中的构词类型、语义领域等信息，为研究韩语新词的形态特征和语义演变规律提供了可靠依据，填补了韩语新词系统研究的空白。

实际应用

KNBD数据集在实际应用中展现出广泛价值。新闻媒体机构可利用该数据集监测新词流行趋势，优化内容推荐系统；教育机构可基于新词数据开发韩语教学材料；企业则可借助新词分析洞察消费者行为变化。此外，该数据集还可用于构建更精准的韩语机器翻译和语音识别系统。

数据集最近研究