Pre-modern_Chinese_language_corpus
收藏github2024-03-20 更新2024-05-31 收录
下载链接:
https://github.com/JiangYanting/Pre-modern_Chinese_language_corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个2.8亿多字的近代汉语语料集合。总大小超过966 MB,含968个TXT文件。语料文本均为utf-8编码。文本文件按朝代(宋、元、明、清初、清末、民国)排列,文本的类别、作者姓名也作了标注。
This is a collection of modern Chinese language corpora comprising over 280 million characters. The total size exceeds 966 MB, containing 968 TXT files. All corpus texts are encoded in UTF-8. The text files are organized by dynasty (Song, Yuan, Ming, early Qing, late Qing, and Republic of China), with annotations for text category and author names.
创建时间:
2018-11-04
原始信息汇总
Pre-modern_Chinese_language_corpus 数据集概述
1. 数据集简介
- 总字数: 2.8亿字
- 文件大小: 超过966 MB
- 文件数量: 968个TXT文件
- 编码格式: utf-8
- 排列顺序: 按朝代(宋、元、明、清初、清末、民国)排列
- 标注信息: 文本类别、作者姓名
2. 语料用途
- 文学/文献学/历史学/语言学/艺术学/中医学/科学技术史研究
- 汉语教学
- 数据挖掘
- 文本自动分类
3. 语言资源类型
- 诗歌
- 词
- 剧曲
- 小说话本
- 军事类
- 中医类
- 技艺类(如乐器、棋弈、书法、厨艺、茶、武术功夫)
- 数理科学
- 农业类
- 历史地理类
- 散文类(非韵文)
4. 语料编排分类
- 宋朝
- 元朝
- 明朝
- 清初(1644-1840)
- 清末(1840-1911)
- 民国(1912-1948)
5. 文档字数统计(不含标点)
| 类别朝代 | 散文 | 小说话本 | 历史地理 | 诗词 | 医学 | 农学 | 剧曲 | 数理科学 | 技艺 | 军事 | 总字数 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 宋 | 5820561 | 141317 | 12835787 | 1680594 | 5419232 | 18930 | 0 | 285620 | 33288 | 445545 | 26680874 |
| 元 | 1319350 | 1378162 | 5375872 | 2835050 | 1869542 | 189182 | 2423584 | 116977 | 50850 | 0 | 15558569 |
| 明 | 6423460 | 17357555 | 27279817 | 929987 | 15728504 | 552105 | 2639445 | 1454890 | 187069 | 803206 | 73356038 |
| 清初 | 882491 | 33290363 | 39011391 | 544178 | 10659597 | 5692 | 1040341 | 3749246 | 501007 | 0 | 89684306 |
| 清末 | 744835 | 9436857 | 19075096 | 124220 | 511873 | 0 | 1411883 | 0 | 0 | 19670 | 31324434 |
| 民国 | 3853165 | 9458024 | 20204169 | 160852 | 319042 | 0 | 427896 | 0 | 0 | 136671 | 34559819 |
| 总计 | 19043862 | 9458024 | 123782132 | 6274881 | 34507790 | 765909 | 7943149 | 5606733 | 772214 | 1405092 | 271164040 |
6. 语料下载地址
- 邮件联系: 540980735@qq.com
- QQ号: 540980735
- 微信号: jyt629000
搜集汇总
数据集介绍

构建方式
Pre-modern_Chinese_language_corpus数据集的构建基于对历史文献的广泛收集与整理,涵盖了从宋朝至民国时期的各类文学作品。数据集按照朝代顺序排列,包括宋、元、明、清初、清末和民国六个时期,每个时期的文献均以UTF-8编码保存。此外,文献的作者信息和类型也进行了详细标注,确保了数据的完整性和可追溯性。
特点
该数据集包含了2.8亿多字的语料,总文件大小超过966 MB,共968个文本文件。其特点在于涵盖了诗歌、词、剧曲、小说话本、军事、中医、技艺、数理科学、农业、历史地理及散文等多种文献类型。数据集不仅规模庞大,而且分类细致,为研究者提供了丰富的历史语言资源。
使用方法
Pre-modern_Chinese_language_corpus数据集适用于文学、历史学、语言学、艺术学、中医学及科学技术史等多个领域的研究。用户可以通过邮件、QQ或微信联系数据集编辑获取下载权限。数据集的使用不仅限于学术研究,还可应用于汉语教学、数据挖掘及文本自动分类等实际场景,为相关领域的研究者提供了宝贵的资源支持。
背景与挑战
背景概述
Pre-modern_Chinese_language_corpus数据集是一个包含2.8亿多字的近代汉语语料集合,由Jiang Yanting等研究人员于2018年创建并持续更新。该数据集涵盖了从宋朝到民国时期的文献,包括诗歌、词、剧曲、小说话本、军事、中医、技艺、数理科学、农业、历史地理和散文等多种类型。这些语料按朝代分类,并标注了作者信息和文献类型,为文学、历史学、语言学、艺术学、中医学及科学技术史研究提供了丰富的资源。该数据集不仅支持汉语教学,还为数据挖掘和文本自动分类等应用提供了基础。
当前挑战
Pre-modern_Chinese_language_corpus数据集在构建过程中面临了多方面的挑战。首先,文献的收集与整理需要跨越多个朝代和领域,涉及大量古籍的数字化和校对工作,确保文本的准确性和完整性。其次,语料的分类与标注需要高度的专业知识,特别是在区分不同文献类型和作者信息时,可能存在模糊或争议的情况。此外,数据集的持续更新与维护也面临技术和管理上的挑战,例如修复下载链接失效问题、扩展语料库规模等。这些挑战不仅考验了研究团队的耐心与专业性,也为后续的语料库建设提供了宝贵的经验。
常用场景
经典使用场景
在文学与历史学研究中,Pre-modern_Chinese_language_corpus数据集被广泛用于分析宋、元、明、清及民国时期的语言演变和文学风格。研究者通过这一庞大的语料库,能够深入探讨不同历史时期的语言特征、文学流派及其社会文化背景。
实际应用
在实际应用中,Pre-modern_Chinese_language_corpus被用于汉语教学、文本自动分类和数据挖掘等领域。教育工作者利用这一语料库设计教学材料,帮助学生更好地理解古代汉语的语法和词汇。同时,数据科学家通过机器学习算法对语料进行自动分类,为文本分析提供了高效的工具。
衍生相关工作
基于Pre-modern_Chinese_language_corpus,许多经典的研究工作得以展开。例如,学者们利用该数据集进行了汉语历时语言学研究,发表了多篇关于汉语语法演变的论文。此外,该数据集还催生了一系列关于古代文学流派和作家风格的深度分析,为文学研究提供了新的视角。
以上内容由遇见数据集搜集并总结生成



