Pre-modern_Chinese_language_corpus

github2024-03-20 更新2024-05-31 收录

下载链接：

https://github.com/JiangYanting/Pre-modern_Chinese_language_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个2.8亿多字的近代汉语语料集合。总大小超过966 MB，含968个TXT文件。语料文本均为utf-8编码。文本文件按朝代（宋、元、明、清初、清末、民国）排列，文本的类别、作者姓名也作了标注。

This is a collection of modern Chinese language corpora comprising over 280 million characters. The total size exceeds 966 MB, containing 968 TXT files. All corpus texts are encoded in UTF-8. The text files are organized by dynasty (Song, Yuan, Ming, early Qing, late Qing, and Republic of China), with annotations for text category and author names.

创建时间：

2018-11-04

原始信息汇总

Pre-modern_Chinese_language_corpus 数据集概述

1. 数据集简介

总字数: 2.8亿字
文件大小: 超过966 MB
文件数量: 968个TXT文件
编码格式: utf-8
排列顺序: 按朝代（宋、元、明、清初、清末、民国）排列
标注信息: 文本类别、作者姓名

2. 语料用途

文学/文献学/历史学/语言学/艺术学/中医学/科学技术史研究
汉语教学
数据挖掘
文本自动分类

3. 语言资源类型

诗歌
词
剧曲
小说话本
军事类
中医类
技艺类（如乐器、棋弈、书法、厨艺、茶、武术功夫）
数理科学
农业类
历史地理类
散文类（非韵文）

4. 语料编排分类

宋朝
元朝
明朝
清初（1644-1840）
清末（1840-1911）
民国（1912-1948）

5. 文档字数统计(不含标点)

类别朝代	散文	小说话本	历史地理	诗词	医学	农学	剧曲	数理科学	技艺	军事	总字数
宋	5820561	141317	12835787	1680594	5419232	18930	0	285620	33288	445545	26680874
元	1319350	1378162	5375872	2835050	1869542	189182	2423584	116977	50850	0	15558569
明	6423460	17357555	27279817	929987	15728504	552105	2639445	1454890	187069	803206	73356038
清初	882491	33290363	39011391	544178	10659597	5692	1040341	3749246	501007	0	89684306
清末	744835	9436857	19075096	124220	511873	0	1411883	0	0	19670	31324434
民国	3853165	9458024	20204169	160852	319042	0	427896	0	0	136671	34559819
总计	19043862	9458024	123782132	6274881	34507790	765909	7943149	5606733	772214	1405092	271164040

6. 语料下载地址

邮件联系: 540980735@qq.com
QQ号: 540980735
微信号: jyt629000

搜集汇总

数据集介绍

构建方式

Pre-modern_Chinese_language_corpus数据集的构建基于对历史文献的广泛收集与整理，涵盖了从宋朝至民国时期的各类文学作品。数据集按照朝代顺序排列，包括宋、元、明、清初、清末和民国六个时期，每个时期的文献均以UTF-8编码保存。此外，文献的作者信息和类型也进行了详细标注，确保了数据的完整性和可追溯性。

特点

该数据集包含了2.8亿多字的语料，总文件大小超过966 MB，共968个文本文件。其特点在于涵盖了诗歌、词、剧曲、小说话本、军事、中医、技艺、数理科学、农业、历史地理及散文等多种文献类型。数据集不仅规模庞大，而且分类细致，为研究者提供了丰富的历史语言资源。

使用方法

Pre-modern_Chinese_language_corpus数据集适用于文学、历史学、语言学、艺术学、中医学及科学技术史等多个领域的研究。用户可以通过邮件、QQ或微信联系数据集编辑获取下载权限。数据集的使用不仅限于学术研究，还可应用于汉语教学、数据挖掘及文本自动分类等实际场景，为相关领域的研究者提供了宝贵的资源支持。

背景与挑战

背景概述

Pre-modern_Chinese_language_corpus数据集是一个包含2.8亿多字的近代汉语语料集合，由Jiang Yanting等研究人员于2018年创建并持续更新。该数据集涵盖了从宋朝到民国时期的文献，包括诗歌、词、剧曲、小说话本、军事、中医、技艺、数理科学、农业、历史地理和散文等多种类型。这些语料按朝代分类，并标注了作者信息和文献类型，为文学、历史学、语言学、艺术学、中医学及科学技术史研究提供了丰富的资源。该数据集不仅支持汉语教学，还为数据挖掘和文本自动分类等应用提供了基础。

当前挑战

Pre-modern_Chinese_language_corpus数据集在构建过程中面临了多方面的挑战。首先，文献的收集与整理需要跨越多个朝代和领域，涉及大量古籍的数字化和校对工作，确保文本的准确性和完整性。其次，语料的分类与标注需要高度的专业知识，特别是在区分不同文献类型和作者信息时，可能存在模糊或争议的情况。此外，数据集的持续更新与维护也面临技术和管理上的挑战，例如修复下载链接失效问题、扩展语料库规模等。这些挑战不仅考验了研究团队的耐心与专业性，也为后续的语料库建设提供了宝贵的经验。

常用场景

经典使用场景

在文学与历史学研究中，Pre-modern_Chinese_language_corpus数据集被广泛用于分析宋、元、明、清及民国时期的语言演变和文学风格。研究者通过这一庞大的语料库，能够深入探讨不同历史时期的语言特征、文学流派及其社会文化背景。

实际应用

在实际应用中，Pre-modern_Chinese_language_corpus被用于汉语教学、文本自动分类和数据挖掘等领域。教育工作者利用这一语料库设计教学材料，帮助学生更好地理解古代汉语的语法和词汇。同时，数据科学家通过机器学习算法对语料进行自动分类，为文本分析提供了高效的工具。

衍生相关工作

基于Pre-modern_Chinese_language_corpus，许多经典的研究工作得以展开。例如，学者们利用该数据集进行了汉语历时语言学研究，发表了多篇关于汉语语法演变的论文。此外，该数据集还催生了一系列关于古代文学流派和作家风格的深度分析，为文学研究提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集