Corpus of Chinese Dynastic Histories

Name: Corpus of Chinese Dynastic Histories
Creator: 马萨诸塞大学阿默斯特分校, 多伦多大学
Published: 2020-05-18 23:14:33
License: 暂无描述

arXiv2020-05-18 更新2024-06-21 收录

下载链接：

https://osf.io/tp729/

下载链接

链接失效反馈

官方服务：

资源简介：

Corpus of Chinese Dynastic Histories（CCDH）是一个包含超过2300万字符的开放源数据集，涵盖了从公元前3世纪至公元18世纪的中国历代历史文献。该数据集由马萨诸塞大学阿默斯特分校和多伦多大学的研究团队创建，主要用于计算分析历史词汇和语义变化。数据集内容丰富，包括各朝代的官方历史记录，如《史记》、《汉书》等，这些文献以古典汉语书写，为研究提供了丰富的语言材料。创建过程中，研究团队从Wikisource获取文本，并进行了格式化和处理，以适应各种古典汉语研究的需求。该数据集的应用领域广泛，特别适用于历史语言学、语义学及性别研究等领域，旨在解决古典汉语资源稀缺的问题，推动相关学术研究的发展。

The Corpus of Chinese Dynastic Histories (CCDH) is an open-source dataset containing over 23 million characters, covering historical documents of successive Chinese dynasties spanning from the 3rd century BCE to the 18th century CE. Developed by a research team from the University of Massachusetts Amherst and the University of Toronto, this dataset is primarily intended for computational analysis of historical lexical and semantic changes. It encompasses a rich array of official historical records from various dynasties, such as the Records of the Grand Historian and the Book of Han. Written in Classical Chinese, these documents provide ample linguistic resources for academic research. During its development, the research team sourced texts from Wikisource and conducted formatting and processing to accommodate the requirements of diverse Classical Chinese research endeavors. This dataset has a wide range of application domains, and is particularly applicable to fields including historical linguistics, semantics and gender studies. It aims to address the scarcity of available Classical Chinese resources and advance the development of relevant academic research.

提供机构：

马萨诸塞大学阿默斯特分校, 多伦多大学

创建时间：

2020-05-18

搜集汇总

数据集介绍

构建方式

在历史语言学领域，构建大规模历时语料库对于研究语言演变具有关键意义。Corpus of Chinese Dynastic Histories（CCDH）的构建基于维基文库中公开获取的二十四史文本，这些文本遵循知识共享许可协议，确保了资源的合法性与可及性。研究团队对原始文本进行了系统化处理，移除了除章节、段落和句子划分外的所有格式标记，并将文本转换为UTF-8编码的纯文本格式。进一步地，通过创建索引文件，为每个字符标注了所属史书、章节、段落、句子及位置信息，从而形成了包含超过2300万字符的结构化语料库，为历时语言分析提供了精细的数据基础。

特点

该语料库的显著特点在于其历时跨度与规模。它涵盖了从公元前3世纪至公元18世纪近两千年的中国正史文献，以文言文书写，构成了一个连续而庞大的语言空间。语料库不仅包含官方纪传体史书的核心内容，尤其以传记部分为主体，反映了古代中国社会生活的多个维度。此外，研究团队还专门编制了一份文言文性别特定术语列表，包含81个男性术语和31个女性术语，为性别语义分析提供了独特的词汇资源。语料库的开放获取特性，弥补了文言文历时资源稀缺的现状，支持词汇语义演变、社会语言特征等多方面的计算语言学研究。

使用方法

在使用该语料库时，研究者可依据其结构化索引进行多层次的文本分析。例如，可通过构建共现矩阵，探索性别特定术语与上下文词汇的分布关系，从而揭示术语的语义关联网络。对于历时研究，可基于分朝代统计文件，通过线性回归等方法分析术语使用频率的演变趋势，评估语言使用的稳定性。此外，聚焦语料库方法允许针对特定术语提取所有包含该术语的句子或段落，进而应用主题建模或关键词分析技术，以自动提取术语的语义框架或意义模板。这些方法为历史语义学、社会语言学及数字人文研究提供了有力的实证工具。

背景与挑战

背景概述

《中国历代正史语料库》由马萨诸塞大学阿默斯特分校与多伦多大学的研究团队于2020年构建，旨在填补古典汉语历时语料资源的空白。该语料库基于二十四史，涵盖公元前3世纪至公元18世纪约两千年间的文献，字符总量超过2300万，为历史语言学与计算语言学研究提供了连续、大规模的文本基础。其核心研究问题聚焦于古典汉语的词汇演变与语义分析，尤其以性别术语为案例，探索历史语境中的语言使用模式。该资源的开放共享显著推动了古典汉语的数字化进程，为跨学科的历史文化研究提供了关键数据支撑。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，古典汉语作为低资源语言，长期缺乏可自由获取的历时语料，制约了语义变迁、社会语言特征等深层分析的开展；性别分析作为新兴研究方向，需克服汉语缺乏显性语法性别标记的障碍，依赖语义语境推断性别特定术语的历时使用模式。在构建过程中，挑战包括文本处理的技术复杂性：需从开放编辑的维基文库中提取并清洗海量文本，确保分章、分段、分句的结构化标注准确；同时，性别术语列表的创建需平衡历时覆盖与术语稳定性，避免因官职、称谓等词汇随朝代更迭而产生的断层问题。

常用场景

经典使用场景

在历史语言学与数字人文领域，中国历代正史语料库（CCDH）为历时语义演变研究提供了经典范例。该语料库覆盖了从公元前三世纪至公元十八世纪跨越两千余年的文言文文献，其宏大的时间跨度和统一的文体风格，使其成为探究汉语词汇历时稳定性与变迁规律的理想资源。研究者常利用该语料库，通过构建特定词汇（如性别相关术语）的共现矩阵与上下文词汇表，分析词汇在漫长历史中的使用模式与语义环境的稳定性，从而揭示文言文这一书面语系统的内在演变机制。

解决学术问题

该语料库有效解决了古典汉语研究领域长期存在的资源匮乏问题，为历时语言学提供了高质量、可自由获取的标准化数据基础。其核心贡献在于，通过系统化的文本处理与标注，使得大规模计算分析成为可能，从而能够实证性地检验关于文言文词汇与语法稳定性的经典语言学假说。例如，基于该语料库的性别术语分析表明，大量性别相关词汇的上下文环境在千年尺度上表现出惊人的稳定性，这为理解汉语书面语的保守性提供了量化证据，并推动了基于语料库的历史语义学研究方法的创新。

衍生相关工作

该语料库的发布催生了一系列围绕古典汉语计算分析的衍生研究。其构建过程中发展的性别专用术语列表，为后续的历史社会性别研究提供了可操作的词汇框架。方法论上，研究者在语料库上应用并比较了主题建模（LDA）与关键词分析（KA）等技术，探索了适用于无词性标注的文言文文本的语义提取方法，这些方法为后续的古典文献内容分析提供了范式参考。此外，该资源也激励了更多学者致力于构建其他开放获取的古典汉语语料库，共同推动了该领域研究资源的生态建设。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集