Chinese-Poetry-Corpus
收藏github2022-03-18 更新2024-05-31 收录
下载链接:
https://github.com/xiu-ze/Poetry
下载链接
链接失效反馈官方服务:
资源简介:
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。
This corpus is collected from the internet and contains ancient poetry data from the pre-Qin period to the contemporary era, stored in CSV format. After deduplication, it includes a total of 1,014,508 poems. The ancient poems are categorized by dynasty and stored in folders, with the naming convention being 'dynasty.csv'. Each poem's data consists of five fields: title, dynasty, author, genre, and content.
创建时间:
2022-03-14
原始信息汇总
Chinese-Poetry-Corpus 数据集概述
数据集描述
- 数据来源:互联网
- 数据格式:CSV
- 数据总量:1,014,508首古诗词
数据组织
- 存储结构:按朝代划分,存储于文件夹“诗歌数据集”下,文件命名规则为“朝代.csv”。
- 文档分割:诗词数量多的朝代被分成多个文档。
- 诗人归属:跨朝代的诗人,以出生朝代为准。
数据字段
- 字段内容:标题、朝代、作者、体裁、内容
- 体裁说明:记录诗的文学体裁,如“五言绝句”、“词”、“古风”等。
- 词标题格式:统一为“词牌名[空格]题目”,特殊情况有特定处理规则。
各朝代诗词数量统计
| 朝代 | 数量 |
|---|---|
| 先秦 | 576 |
| 秦 | 9 |
| 汉 | 753 |
| 魏晋 | 2425 |
| 南北朝 | 4705 |
| 隋 | 1266 |
| 唐 | 54156 |
| 宋 | 268665 |
| 辽 | 25 |
| 金 | 8357 |
| 元 | 70574 |
| 明 | 294587 |
| 清 | 246698 |
| 近现代 | 30372 |
| 当代 | 31340 |
先秦至清朝诗词体裁统计
| 体裁 | 数量 |
|---|---|
| 词 | 83364 |
| 五言绝句 | 35574 |
| 五言律诗 | 145068 |
| 七言绝句 | 196356 |
| 七言律诗 | 217215 |
搜集汇总
数据集介绍

构建方式
Chinese-Poetry-Corpus数据集的构建基于对互联网上广泛收集的古诗词数据进行系统整理与分类。该数据集按照朝代对诗词进行划分,每个朝代的诗词存储在以朝代命名的CSV文件中,确保了数据的有序性和可追溯性。对于跨朝代的诗人,作品按照其出生朝代进行归类,确保了历史背景的准确性。每首诗词包含标题、朝代、作者、体裁和内容五个字段,其中体裁字段详细记录了诗词的文学形式,如五言绝句、词等。此外,针对词这种体裁,数据集特别规范了标题格式,确保了词牌名和题目的清晰区分。
特点
Chinese-Poetry-Corpus数据集的显著特点在于其全面性和细致的分类。该数据集涵盖了从先秦到当代的广泛历史时期,共计1014508首诗词,展现了中华诗词文化的深厚底蕴。数据集不仅按朝代进行分类,还特别关注了诗词的体裁,如词、五言绝句、七言律诗等,提供了丰富的文学研究素材。此外,数据集对词标题的规范化处理,如统一词牌名和题目的格式,增强了数据的一致性和可用性。
使用方法
Chinese-Poetry-Corpus数据集适用于多种文学研究和文化分析场景。研究者可以通过朝代或体裁进行数据筛选,深入分析特定历史时期或文学形式的诗词特点。例如,可以利用该数据集进行诗词风格的演变研究,或进行特定诗人作品的系统分析。数据集的CSV格式便于导入各种数据分析工具,如Python的pandas库,进行进一步的统计分析和文本挖掘。此外,规范化处理的词标题格式也为词学研究提供了便利,使得词牌名和题目的关联分析更加直观和准确。
背景与挑战
背景概述
古诗词作为中华文化的重要组成部分,承载着丰富的历史与文学价值。Chinese-Poetry-Corpus数据集由研究人员从互联网上收集整理,涵盖了从先秦至当代的古诗词,共计1014508首。该数据集以CSV格式存储,按朝代划分,并详细记录了每首诗词的标题、朝代、作者、体裁和内容。特别地,对于词这一体裁,数据集统一了标题格式,确保了数据的标准化和一致性。该数据集的创建不仅为古诗词研究提供了宝贵的资源,也为自然语言处理、文学分析等领域提供了丰富的语料支持。
当前挑战
尽管Chinese-Poetry-Corpus数据集在古诗词研究领域具有重要价值,但其构建过程中仍面临诸多挑战。首先,数据的去重和标准化处理是一项复杂的工作,尤其是对于跨朝代的诗人和词体裁的标题格式统一。其次,数据集的规模庞大,如何高效地存储和检索这些数据也是一个技术难题。此外,古诗词的语言风格独特,如何利用现代技术手段进行有效的分析和挖掘,仍需进一步探索。最后,数据集的更新和维护也是一个长期挑战,确保数据的时效性和准确性至关重要。
常用场景
经典使用场景
Chinese-Poetry-Corpus数据集的经典使用场景主要体现在古诗词的文本分析与挖掘上。研究者可以利用该数据集进行诗词的情感分析、风格分类、主题建模等任务,从而深入理解中国古代文学的多样性与复杂性。此外,该数据集还可用于构建诗词生成模型,通过机器学习技术自动生成具有特定风格或情感的诗词作品,为文学创作提供新的可能性。
实际应用
在实际应用中,Chinese-Poetry-Corpus数据集可广泛应用于教育、文化传承与创意产业。例如,教育领域可以利用该数据集开发古诗词学习与鉴赏的智能系统,提升学生的文学素养。在文化传承方面,该数据集可用于制作古诗词相关的多媒体内容,增强公众对传统文化的认知与兴趣。此外,创意产业如游戏、影视等,也可借助该数据集进行内容创作,丰富作品的文化内涵。
衍生相关工作
基于Chinese-Poetry-Corpus数据集,已衍生出多项经典工作。例如,有研究者利用该数据集开发了古诗词自动生成系统,通过深度学习模型生成符合特定风格与情感的诗词作品。此外,还有学者基于该数据集进行了诗词情感分析与风格分类的研究,揭示了不同体裁诗词的情感表达与风格特征。这些工作不仅推动了古诗词研究的深入,也为自然语言处理领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



