Open Korean Historical Corpus

Name: Open Korean Historical Corpus
Creator: KAIST, Korea University, New York University, Genentech
Published: 2025-10-28 23:43:26
License: 暂无描述

arXiv2025-10-28 更新2025-10-30 收录

下载链接：

https://db.history.go.kr

下载链接

链接失效反馈

官方服务：

资源简介：

Open Korean Historical Corpus是一个跨越1300年历史，包含6种语言的开放许可数据集，包括韩国式汉字（Idu）和汉字-韩文混合脚本等代表性不高的书写系统。该语料库包含从7世纪到2025年的1800万份文档和50亿个tokens，来源广泛，从皇家秘书处日记到现代新闻文章。语料库为韩国历史语言学提供了基础资源，并可作为大型语言模型的预训练语料库，以提高其对现代韩文中的汉韩词汇以及古代书写的理解。

The Open Korean Historical Corpus is an open-licensed dataset spanning 1,300 years of history and covering six languages, including less commonly attested writing systems such as Idu (Korean-style Chinese characters) and mixed Hanja-Hangeul scripts. This corpus contains 18 million documents and 5 billion tokens spanning from the 7th century to 2025, with diverse sources ranging from royal secretariat diaries to modern news articles. It serves as a foundational resource for Korean historical linguistics, and can also be utilized as a pre-training corpus for large language models (LLMs) to improve their comprehension of Sino-Korean vocabulary in modern Korean and ancient writing systems.

提供机构：

KAIST, Korea University, New York University, Genentech

创建时间：

2025-10-28

搜集汇总

数据集介绍

构建方式

该数据集的构建依托系统化的多源采集与标准化处理流程，涵盖从公元7世纪至2025年的历史文本。研究团队从19个权威机构获取数字化原始文献，包括韩国国家历史编纂院、国立中央图书馆等公共档案库，运用网络爬虫技术采集网页数据并整合直接下载资源。文本预处理采用双重策略：首先实施Unicode标准化与噪声过滤，随后针对不同来源设计特异性清洗规则，如剔除现代翻译注释、分离元数据干扰等，确保历史文本的原始性与纯净度。最终数据以JSON Lines格式封装，每个文档均标注出版年份、语言类型、文字体系等结构化元数据。

特点

本数据集的核心价值体现在其时空跨度与语言多样性上。作为迄今规模最大的韩语历史语料库，它囊括1770万文档与51亿词汇单位，覆盖中世韩语、近世韩语、现代韩语及朝鲜特色变体等六种语言形态。特别值得注意的是对特殊文字体系的完整收录，包括吏读文字、汉韩混写文本、古韩文等濒危书写系统，其中吏读文献的数字化整合属首次实现。时空维度上，语料纵贯朝鲜三国时代至当代，精准捕捉了15世纪训民正音颁布后的文字变迁轨迹，为量化研究韩语历时演变提供了不可替代的素材基础。

使用方法

研究者可通过标准化数据接口直接调用语料库资源，其JSON架构专为历时语言分析设计。每份文档均包含语言分类标签与文字体系标注，支持按时期、语种、文字类型进行多维筛选。在计算语言学应用中，该语料适用于词汇演变分析、文字使用频率统计等量化研究，例如通过字符级正则匹配可追踪汉韩文字比例的历史消长。对于预训练模型开发，语料经NFKC标准化处理后可直接投入训练，其跨世纪文本连续性有助于增强模型对 Sino-Korean 词汇的理解能力。需注意遵循CC BY-NC 4.0许可协议，对受版权保护的内容仅提供元数据索引。

背景与挑战

背景概述

在韩语历史语言学领域，口语与书面语系统的长期脱节构成了核心研究问题。2025年由KAIST、高丽大学等机构联合发布的《开放韩语历史语料库》应运而生，该资源横跨1300年时空维度，收录来自19个来源的1770万文档，覆盖中世韩语、近世韩语等六种语言变体及吏读、韩汉混用文字等特殊书写系统。该语料库首次以开放授权方式整合了《承政院日记》《朝鲜王朝实录》等珍稀史料，为量化研究韩文从汉字到谚文的演变轨迹、朝鲜半岛南北语言分化等现象提供了前所未有的数据基础，标志着计算语言学方法在历史语言研究中的里程碑式突破。

当前挑战

该语料库建设面临双重挑战：在领域问题层面，需解决韩语历时演变中汉字-谚文转换机制、吏读系统消亡动因等复杂语言现象的量化建模难题；在构建过程中，原始史料存在字符编码不一致、数字化噪声干扰等问题，特别是近世文献中古韩文字符与现代Unicode的映射关系需要专门设计清洗规则。此外，殖民地时期日文文献与北韩文本的意识形态敏感性要求构建者建立严格的内容过滤机制，而不同历史阶段语料分布的不均衡性则对历时分析的统计效力构成持续挑战。

常用场景

经典使用场景

在历史语言学与自然语言处理领域，Open Korean Historical Corpus 作为首个跨越1300年的韩语历时语料库，其经典应用场景聚焦于量化分析韩语文字系统的演变轨迹。研究者通过该语料库可追踪汉字（Hanja）向谚文（Hangul）的转变过程，例如利用字符级统计揭示1890年后韩文使用率从近乎零跃升至93%的突变现象。这种大规模历时数据为语言政策研究提供了实证基础，尤其适用于分析朝鲜王朝末期改革运动对书写体系的影响。

衍生相关工作

该语料库已催生多个经典衍生研究方向：在历时计算语言学领域，研究者基于其开发的字符级脚本分析算法，成功重建了韩文书写系统的演化路径；在低资源语言处理方面，借鉴其构建方法形成的多脚本识别框架，被扩展应用于满文、西夏文等濒危文字的数字保护；此外，其开放的JSON-Lines数据架构已成为历史语料标准化建设的范本，被后续的CHisIEC等跨语言历时语料库直接采纳。

数据集最近研究