KNTD: Korean Neologisms Trend Dataset

github2025-08-01 更新2025-08-15 收录

下载链接：

https://github.com/Jees-an/Korean-neologisms-trend-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

KNTD是一个分析2012年后出现的韩语新词使用趋势的数据集。通过多种数据（语料库、Google Trends等）分析了新词的使用情况，并提供随时间变化的新词使用趋势。

KNTD is a dataset focused on analyzing the usage trends of Korean neologisms that emerged after 2012. It utilizes multiple data sources including corpora and Google Trends to examine the usage patterns of these neologisms, and provides their temporal usage trends.

创建时间：

2025-07-30

原始信息汇总

KNTD: Korean Neologisms Trend Dataset 概述

1. 数据集简介

KNTD是分析2012年后出现的韩语新词使用趋势的数据集。
通过多种数据（语料库、Google Trends等）分析新词使用模式，并提供随时间变化的新词使用趋势。

2. 数据构成

2.1 Google Trends月别搜索关注度趋势（2009.01.~2025.06.，共198个月）

分析对象：4,744个新词
数据范围：分析期间内月别搜索关注度，以0~100范围的相对值表示
- 数据来源：
  - 国立国语院《新词调查事业》（2012~2019年新词，共3,361个）
  - 庆北大学语言信息研究中心《新词调查事业》（2020~2023年新词，共1,383个）
使用API：DataForSEO Google Trend API（Type: WEB）

3. 主要示例

기승전돔：2012年新词，意为"任何故事都以建圆顶体育馆为结论的现象"
레전설：2012年新词，意为"比喻接近传说的英雄存在"
낮져밤이：2013年新词，意为"白天输晚上赢的风格的缩略语"
관심종자：2013年新词，意为"想获得关注的人的俗语"

4. 使用方法

图表：./graph/文件夹中保存有2012年后韩国主要媒体首次出现的4,744个新词的Google Trends月别搜索关注度图表
原始数据：./raw_json/文件夹中保存有DataForSEO API的原始响应结果（JSON格式）

5. 参考文献

国立国语院（2012˜2019）《2012˜2019年新词资料集》
庆北大学语言信息研究中心相关研究
多部关于韩语新词的学术著作和论文

搜集汇总

数据集介绍

构建方式

KNTD数据集通过整合多源异构数据构建而成，其核心数据来源于国立国语院2012-2019年度新词调查报告及庆北大学语言信息研究中心2020-2023年新词调查项目，共收录4,744个韩语新词。数据采集采用DataForSEO Google Trend API获取2009年1月至2025年6月期间198个月的搜索兴趣度数据，以0-100标准化值呈现每个新词的月度流行趋势。原始语料来自Naver新闻等主流媒体平台，严格标注每个新词的首现时间与语义解释。

特点

该数据集最显著的特征在于其时间跨度的完整性与数据维度的多样性。不仅涵盖长达16年的新词演变轨迹，更通过相对频率指标实现跨年度可比性分析。每个词条均附有精确的语义注释和首现时间标记，配合可视化趋势图可直观观察词汇生命周期的完整曲线。数据集特别收录如'기승전돔''레전설'等典型新词案例，生动展现网络时代韩语词汇的创新机制与传播规律。

使用方法

研究者可通过./graph/目录下的可视化图表快速把握新词流行趋势，或基于./raw_json/中的原始JSON数据进行深度分析。数据集支持多种研究场景：既可纵向追踪单个词汇的兴衰周期，也能横向比较不同语义场新词的传播差异。为保障研究可复现性，建议结合配套的KNBD基准数据集进行联合分析，同时需注意国立国语院数据的版权限制要求。

背景与挑战

背景概述

KNTD（Korean Neologisms Trend Dataset）是由韩国国立国语院和庆北大学语言信息研究中心联合构建的韩语新词趋势分析数据集，主要追踪2012年后出现的韩语新词使用趋势。该数据集整合了多种数据源，包括语料库和Google Trends，旨在分析新词在时间维度上的使用变化。作为韩语语言学领域的重要资源，KNTD不仅为新词研究提供了量化依据，也为自然语言处理领域的动态词汇建模提供了基准数据。其构建基于国立国语院2012-2019年新词调查项目和庆北大学2020-2023年新词调查项目的成果，共涵盖4,744个新词。

当前挑战

KNTD面临的核心挑战体现在两个方面：领域问题层面，韩语新词的动态性和文化特异性使得准确捕捉其语义演变和使用模式具有较高难度，特别是网络流行语的快速更迭对长期趋势分析提出了挑战；构建过程层面，多源异构数据的整合需要解决时间粒度不一致问题，Google Trends数据的相对值特性也增加了跨时期可比性的技术难度。此外，新词识别本身存在边界模糊性，如何平衡语言学规范与实际使用现象成为方法论上的关键挑战。

常用场景

经典使用场景

KNTD数据集在语言学研究领域具有重要价值，尤其在韩国语新词动态分析方面表现突出。该数据集通过整合2012年以来的韩国语新词使用频率数据，结合Google Trends的搜索趋势，为研究者提供了新词流行度变化的可视化分析工具。其经典使用场景包括追踪特定新词在媒体和网络中的传播路径，分析社会文化因素如何影响词汇的兴衰，以及探究新词从产生到普及的全生命周期。

实际应用

在实际应用层面，KNTD被广泛运用于搜索引擎优化、舆情监测系统构建等领域。互联网企业借助该数据集分析用户搜索行为模式，优化内容推荐算法；政府机构则利用其监测社会热点词汇的传播轨迹，为文化政策制定提供数据支持。教育领域也通过该数据集开发韩国语教学材料，帮助学习者掌握当代常用新词。

衍生相关工作

基于KNTD数据集已衍生出多项重要研究成果，包括韩国国立国语院的年度新词调查报告系列，以及경북대학교开发的KNBD新词基准数据集。在国际学术界，该数据集启发了类似NEO-BENCH等跨语言新词评估框架的建立。相关论文发表在《韩国语学》等核心期刊，推动了计算语言学与社会语言学的交叉研究发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集