Pre-modern_Chinese_language_corpus

github2024-03-20 更新2024-05-31 收录

下载链接：

https://github.com/JiangYanting/Pre-modern_Chinese_corpus_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个2.8亿多字的近代汉语语料集合。总大小超过966 MB，含968个TXT文件。语料文本均为utf-8编码，按朝代（宋、元、明、清初、清末、民国）排列，文本的类别、作者姓名也作了标注。这些语料可服务于文学/文献学/历史学/语言学/艺术学/中医学/科学技术史研究、汉语教学、数据挖掘和文本自动分类等领域。

This is a collection of modern Chinese language corpora comprising over 280 million characters. The total size exceeds 966 MB, containing 968 TXT files. The corpus texts are encoded in UTF-8 and organized by dynasty (Song, Yuan, Ming, early Qing, late Qing, and Republic of China), with annotations for text categories and author names. These corpora can serve research in literature, philology, history, linguistics, art, traditional Chinese medicine, and the history of science and technology, as well as Chinese language teaching, data mining, and automatic text classification.

创建时间：

2018-11-04

原始信息汇总

数据集概述

1. 数据集名称

名称：Pre-modern_Chinese_language_corpus

2. 数据集描述

字数：2.8亿字
文件大小：超过966 MB
文件数量：968个TXT文件
编码：utf-8
分类：按朝代（宋、元、明、清初、清末、民国）排列，文本类别、作者姓名标注

3. 数据集用途

可用于文学、文献学、历史学、语言学、艺术学、中医学、科学技术史研究、汉语教学、数据挖掘和文本自动分类等领域。

4. 语言资源类型

包括诗歌、词、剧曲、小说话本、军事类、中医类、技艺类、数理科学、农业类、历史地理类、散文类（非韵文）。

5. 语料编排分类

分为6个部分：宋朝、元朝、明朝、清初（1644-1840）、清末（1840-1911）、民国（1912-1948）。

6. 文档字数统计(不含标点)

详细字数统计见下表：

类别朝代	散文	小说话本	历史地理	诗词	医学	农学	剧曲	数理科学	技艺	军事	总字数
宋	5820561	141317	12835787	1680594	5419232	18930	0	285620	33288	445545	26680874
元	1319350	1378162	5375872	2835050	1869542	189182	2423584	116977	50850	0	15558569
明	6423460	17357555	27279817	929987	15728504	552105	2639445	1454890	187069	803206	73356038
清初	882491	33290363	39011391	544178	10659597	5692	1040341	3749246	501007	0	89684306
清末	744835	9436857	19075096	124220	511873	0	1411883	0	0	19670	31324434
民国	3853165	9458024	20204169	160852	319042	0	427896	0	0	136671	34559819
总计	19043862	9458024	123782132	6274881	34507790	765909	7943149	5606733	772214	1405092	271164040

7. 语料下载地址

请邮件联系540980735@qq.com，或加qq号:540980735，或加微信号jyt629000获取。

搜集汇总

数据集介绍

构建方式

Pre-modern_Chinese_language_corpus数据集的构建基于对历史文献的系统收集与整理，涵盖了宋、元、明、清初、清末及民国六个时期的文本。这些文献经过精心筛选，确保其代表性与多样性，涵盖了诗歌、词、剧曲、小说话本、军事、中医、技艺、数理科学、农业、历史地理及散文等11种类型。所有文本均以UTF-8编码保存，并按朝代顺序排列，同时标注了作者信息与文献类别，确保了数据的完整性与可追溯性。

特点

该数据集以其庞大的规模与丰富的内容著称，总字数超过2.8亿，包含968个文本文件，总大小达966 MB。其独特之处在于涵盖了多个历史时期与多种文献类型，为研究者提供了跨学科的研究素材。数据集中的文本不仅具有历史价值，还包含了丰富的文化、科学与艺术信息，能够满足文学、历史学、语言学、艺术学、中医学及科学技术史等多个领域的研究需求。

使用方法

Pre-modern_Chinese_language_corpus数据集的使用方法灵活多样，适用于多种研究与应用场景。研究者可通过邮件、QQ或微信联系数据集编辑获取下载权限。下载后，用户可根据朝代、文献类型或作者信息对文本进行分类与检索。该数据集可用于文学分析、历史研究、语言学探索、数据挖掘及文本自动分类等任务。此外，其丰富的跨学科内容也为汉语教学与科学技术史研究提供了宝贵的资源。

背景与挑战

背景概述

Pre-modern_Chinese_language_corpus数据集创建于2018年，由江彦廷等人主导构建，旨在为研究近代汉语提供丰富的语言资源。该数据集涵盖了宋、元、明、清初、清末及民国六个时期的文献，总字数超过2.8亿，包含968个文本文件。这些文献按朝代、作者及类别进行了详细标注，广泛应用于文学、历史学、语言学、艺术学、中医学及科学技术史等多个领域的研究。该数据集的发布为近代汉语研究提供了重要的基础数据，推动了相关领域的学术进展。

当前挑战

Pre-modern_Chinese_language_corpus数据集在构建过程中面临多重挑战。首先，文献的收集与整理需要跨越多个历史时期，涉及大量古籍的数字化与校对工作，确保文本的准确性与完整性。其次，文献的分类与标注需要深厚的学术背景，特别是对古代汉语的理解与解读能力，以确保标注的准确性与一致性。此外，数据集的规模庞大，处理与存储技术也面临较高要求。在应用层面，如何有效利用这些海量数据进行文本挖掘、自动分类及跨学科研究，仍是当前亟待解决的问题。

常用场景

经典使用场景

Pre-modern_Chinese_language_corpus数据集在文学、历史学和语言学研究中具有重要应用。研究者通过分析宋、元、明、清及民国时期的文本，探讨汉语的演变规律、文学风格的变化以及历史事件的文本反映。该数据集为学者提供了丰富的原始材料，支持深入的文本分析和跨时代比较研究。

实际应用

在实际应用中，Pre-modern_Chinese_language_corpus数据集被广泛用于汉语教学、文本自动分类和数据挖掘。教育机构利用该数据集开发教学资源，帮助学生理解古代汉语的语法和词汇。在技术领域，该数据集为自然语言处理算法提供了训练和测试的基础，支持文本分类、信息抽取和机器翻译等任务。

衍生相关工作

基于该数据集，研究者发表了多篇关于汉语历史语言学、文学分析和文本挖掘的经典论文。例如，有研究利用该数据集分析了宋代散文的语言特征，揭示了其与现代汉语的差异。此外，该数据集还催生了一系列文本分析工具和算法，为汉语研究提供了技术支持。这些工作不仅推动了学术研究的发展，也为文化遗产的数字化保护提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集