five

Pre-modern_Chinese_language_corpus

收藏
github2024-03-20 更新2024-05-31 收录
下载链接:
https://github.com/JiangYanting/Pre-modern_Chinese_language_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个2.8亿多字的近代汉语语料集合。总大小超过966 MB,含968个TXT文件。语料文本均为utf-8编码。文本文件按朝代(宋、元、明、清初、清末、民国)排列,文本的类别、作者姓名也作了标注。

This is a collection of modern Chinese language corpora comprising over 280 million characters. The total size exceeds 966 MB, containing 968 TXT files. All corpus texts are encoded in UTF-8. The text files are organized by dynasty (Song, Yuan, Ming, early Qing, late Qing, and Republic of China), with annotations for text category and author names.
创建时间:
2018-11-04
原始信息汇总

Pre-modern_Chinese_language_corpus 数据集概述

1. 数据集简介

  • 总字数: 2.8亿字
  • 文件大小: 超过966 MB
  • 文件数量: 968个TXT文件
  • 编码格式: utf-8
  • 排列顺序: 按朝代(宋、元、明、清初、清末、民国)排列
  • 标注信息: 文本类别、作者姓名

2. 语料用途

  • 文学/文献学/历史学/语言学/艺术学/中医学/科学技术史研究
  • 汉语教学
  • 数据挖掘
  • 文本自动分类

3. 语言资源类型

  • 诗歌
  • 剧曲
  • 小说话本
  • 军事类
  • 中医类
  • 技艺类(如乐器、棋弈、书法、厨艺、茶、武术功夫)
  • 数理科学
  • 农业类
  • 历史地理类
  • 散文类(非韵文)

4. 语料编排分类

  • 宋朝
  • 元朝
  • 明朝
  • 清初(1644-1840)
  • 清末(1840-1911)
  • 民国(1912-1948)

5. 文档字数统计(不含标点)

类别朝代 散文 小说话本 历史地理 诗词 医学 农学 剧曲 数理科学 技艺 军事 总字数
5820561 141317 12835787 1680594 5419232 18930 0 285620 33288 445545 26680874
1319350 1378162 5375872 2835050 1869542 189182 2423584 116977 50850 0 15558569
6423460 17357555 27279817 929987 15728504 552105 2639445 1454890 187069 803206 73356038
清初 882491 33290363 39011391 544178 10659597 5692 1040341 3749246 501007 0 89684306
清末 744835 9436857 19075096 124220 511873 0 1411883 0 0 19670 31324434
民国 3853165 9458024 20204169 160852 319042 0 427896 0 0 136671 34559819
总计 19043862 9458024 123782132 6274881 34507790 765909 7943149 5606733 772214 1405092 271164040

6. 语料下载地址

  • 邮件联系: 540980735@qq.com
  • QQ号: 540980735
  • 微信号: jyt629000
搜集汇总
数据集介绍
main_image_url
构建方式
Pre-modern_Chinese_language_corpus数据集的构建基于对历史文献的广泛收集与整理,涵盖了从宋朝至民国时期的各类文学作品。数据集按照朝代顺序排列,包括宋、元、明、清初、清末和民国六个时期,每个时期的文献均以UTF-8编码保存。此外,文献的作者信息和类型也进行了详细标注,确保了数据的完整性和可追溯性。
特点
该数据集包含了2.8亿多字的语料,总文件大小超过966 MB,共968个文本文件。其特点在于涵盖了诗歌、词、剧曲、小说话本、军事、中医、技艺、数理科学、农业、历史地理及散文等多种文献类型。数据集不仅规模庞大,而且分类细致,为研究者提供了丰富的历史语言资源。
使用方法
Pre-modern_Chinese_language_corpus数据集适用于文学、历史学、语言学、艺术学、中医学及科学技术史等多个领域的研究。用户可以通过邮件、QQ或微信联系数据集编辑获取下载权限。数据集的使用不仅限于学术研究,还可应用于汉语教学、数据挖掘及文本自动分类等实际场景,为相关领域的研究者提供了宝贵的资源支持。
背景与挑战
背景概述
Pre-modern_Chinese_language_corpus数据集是一个包含2.8亿多字的近代汉语语料集合,由Jiang Yanting等研究人员于2018年创建并持续更新。该数据集涵盖了从宋朝到民国时期的文献,包括诗歌、词、剧曲、小说话本、军事、中医、技艺、数理科学、农业、历史地理和散文等多种类型。这些语料按朝代分类,并标注了作者信息和文献类型,为文学、历史学、语言学、艺术学、中医学及科学技术史研究提供了丰富的资源。该数据集不仅支持汉语教学,还为数据挖掘和文本自动分类等应用提供了基础。
当前挑战
Pre-modern_Chinese_language_corpus数据集在构建过程中面临了多方面的挑战。首先,文献的收集与整理需要跨越多个朝代和领域,涉及大量古籍的数字化和校对工作,确保文本的准确性和完整性。其次,语料的分类与标注需要高度的专业知识,特别是在区分不同文献类型和作者信息时,可能存在模糊或争议的情况。此外,数据集的持续更新与维护也面临技术和管理上的挑战,例如修复下载链接失效问题、扩展语料库规模等。这些挑战不仅考验了研究团队的耐心与专业性,也为后续的语料库建设提供了宝贵的经验。
常用场景
经典使用场景
在文学与历史学研究中,Pre-modern_Chinese_language_corpus数据集被广泛用于分析宋、元、明、清及民国时期的语言演变和文学风格。研究者通过这一庞大的语料库,能够深入探讨不同历史时期的语言特征、文学流派及其社会文化背景。
实际应用
在实际应用中,Pre-modern_Chinese_language_corpus被用于汉语教学、文本自动分类和数据挖掘等领域。教育工作者利用这一语料库设计教学材料,帮助学生更好地理解古代汉语的语法和词汇。同时,数据科学家通过机器学习算法对语料进行自动分类,为文本分析提供了高效的工具。
衍生相关工作
基于Pre-modern_Chinese_language_corpus,许多经典的研究工作得以展开。例如,学者们利用该数据集进行了汉语历时语言学研究,发表了多篇关于汉语语法演变的论文。此外,该数据集还催生了一系列关于古代文学流派和作家风格的深度分析,为文学研究提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作