five

Chinese-Poetry-Corpus|古诗词数据集|文本分析数据集

收藏
github2022-03-18 更新2024-05-31 收录
古诗词
文本分析
下载链接:
https://github.com/xiu-ze/Poetry
下载链接
链接失效反馈
资源简介:
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。

This corpus is collected from the internet and contains ancient poetry data from the pre-Qin period to the contemporary era, stored in CSV format. After deduplication, it includes a total of 1,014,508 poems. The ancient poems are categorized by dynasty and stored in folders, with the naming convention being 'dynasty.csv'. Each poem's data consists of five fields: title, dynasty, author, genre, and content.
创建时间:
2022-03-14
原始信息汇总

Chinese-Poetry-Corpus 数据集概述

数据集描述

  • 数据来源:互联网
  • 数据格式:CSV
  • 数据总量:1,014,508首古诗词

数据组织

  • 存储结构:按朝代划分,存储于文件夹“诗歌数据集”下,文件命名规则为“朝代.csv”。
  • 文档分割:诗词数量多的朝代被分成多个文档。
  • 诗人归属:跨朝代的诗人,以出生朝代为准。

数据字段

  • 字段内容:标题、朝代、作者、体裁、内容
  • 体裁说明:记录诗的文学体裁,如“五言绝句”、“词”、“古风”等。
  • 词标题格式:统一为“词牌名[空格]题目”,特殊情况有特定处理规则。

各朝代诗词数量统计

朝代 数量
先秦 576
9
753
魏晋 2425
南北朝 4705
1266
54156
268665
25
8357
70574
294587
246698
近现代 30372
当代 31340

先秦至清朝诗词体裁统计

体裁 数量
83364
五言绝句 35574
五言律诗 145068
七言绝句 196356
七言律诗 217215
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese-Poetry-Corpus数据集的构建基于对互联网上广泛收集的古诗词数据进行系统整理与分类。该数据集按照朝代对诗词进行划分,每个朝代的诗词存储在以朝代命名的CSV文件中,确保了数据的有序性和可追溯性。对于跨朝代的诗人,作品按照其出生朝代进行归类,确保了历史背景的准确性。每首诗词包含标题、朝代、作者、体裁和内容五个字段,其中体裁字段详细记录了诗词的文学形式,如五言绝句、词等。此外,针对词这种体裁,数据集特别规范了标题格式,确保了词牌名和题目的清晰区分。
特点
Chinese-Poetry-Corpus数据集的显著特点在于其全面性和细致的分类。该数据集涵盖了从先秦到当代的广泛历史时期,共计1014508首诗词,展现了中华诗词文化的深厚底蕴。数据集不仅按朝代进行分类,还特别关注了诗词的体裁,如词、五言绝句、七言律诗等,提供了丰富的文学研究素材。此外,数据集对词标题的规范化处理,如统一词牌名和题目的格式,增强了数据的一致性和可用性。
使用方法
Chinese-Poetry-Corpus数据集适用于多种文学研究和文化分析场景。研究者可以通过朝代或体裁进行数据筛选,深入分析特定历史时期或文学形式的诗词特点。例如,可以利用该数据集进行诗词风格的演变研究,或进行特定诗人作品的系统分析。数据集的CSV格式便于导入各种数据分析工具,如Python的pandas库,进行进一步的统计分析和文本挖掘。此外,规范化处理的词标题格式也为词学研究提供了便利,使得词牌名和题目的关联分析更加直观和准确。
背景与挑战
背景概述
古诗词作为中华文化的重要组成部分,承载着丰富的历史与文学价值。Chinese-Poetry-Corpus数据集由研究人员从互联网上收集整理,涵盖了从先秦至当代的古诗词,共计1014508首。该数据集以CSV格式存储,按朝代划分,并详细记录了每首诗词的标题、朝代、作者、体裁和内容。特别地,对于词这一体裁,数据集统一了标题格式,确保了数据的标准化和一致性。该数据集的创建不仅为古诗词研究提供了宝贵的资源,也为自然语言处理、文学分析等领域提供了丰富的语料支持。
当前挑战
尽管Chinese-Poetry-Corpus数据集在古诗词研究领域具有重要价值,但其构建过程中仍面临诸多挑战。首先,数据的去重和标准化处理是一项复杂的工作,尤其是对于跨朝代的诗人和词体裁的标题格式统一。其次,数据集的规模庞大,如何高效地存储和检索这些数据也是一个技术难题。此外,古诗词的语言风格独特,如何利用现代技术手段进行有效的分析和挖掘,仍需进一步探索。最后,数据集的更新和维护也是一个长期挑战,确保数据的时效性和准确性至关重要。
常用场景
经典使用场景
Chinese-Poetry-Corpus数据集的经典使用场景主要体现在古诗词的文本分析与挖掘上。研究者可以利用该数据集进行诗词的情感分析、风格分类、主题建模等任务,从而深入理解中国古代文学的多样性与复杂性。此外,该数据集还可用于构建诗词生成模型,通过机器学习技术自动生成具有特定风格或情感的诗词作品,为文学创作提供新的可能性。
实际应用
在实际应用中,Chinese-Poetry-Corpus数据集可广泛应用于教育、文化传承与创意产业。例如,教育领域可以利用该数据集开发古诗词学习与鉴赏的智能系统,提升学生的文学素养。在文化传承方面,该数据集可用于制作古诗词相关的多媒体内容,增强公众对传统文化的认知与兴趣。此外,创意产业如游戏、影视等,也可借助该数据集进行内容创作,丰富作品的文化内涵。
衍生相关工作
基于Chinese-Poetry-Corpus数据集,已衍生出多项经典工作。例如,有研究者利用该数据集开发了古诗词自动生成系统,通过深度学习模型生成符合特定风格与情感的诗词作品。此外,还有学者基于该数据集进行了诗词情感分析与风格分类的研究,揭示了不同体裁诗词的情感表达与风格特征。这些工作不仅推动了古诗词研究的深入,也为自然语言处理领域提供了新的研究方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录