five

Chinese-Poetry-Dataset|古典文学数据集|文化遗产数据集

收藏
github2024-04-16 更新2024-05-31 收录
古典文学
文化遗产
下载链接:
https://github.com/hlthu/Chinese-Poetry-Dataset
下载链接
链接失效反馈
资源简介:
最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网.

The most comprehensive database of Chinese classical literature, encompassing 55,000 Tang poems, 260,000 Song poems, and 21,000 Song lyrics. It includes nearly 14,000 ancient poets from the Tang and Song dynasties, and 1,500 lyricists from the Song period. The data is sourced from the internet.
创建时间:
2017-12-18
原始信息汇总

数据集概述

数据集名称

chinese-poetry: 最全中文诗歌古典文集数据库

数据集内容

  • 唐诗: 5.5万首
  • 宋诗: 26万首
  • 宋词: 2.1万首
  • 唐宋诗人: 近1.4万
  • 两宋词人: 1.5K
  • 其他文集: 包括五代·花间集、五代·南唐二主词、论语、诗经、幽梦影、四书五经等

数据集格式

  • 全唐诗: JSON格式
  • 全宋诗: JSON格式
  • 全宋词: CI格式
  • 其他文集: 不同格式

数据集用途

此数据集可用于各种有益的用途,如教育、研究和文化传承等。

数据集分析

  • 高频词分析: 提供唐诗、宋诗、宋词的高频词统计。
  • 作者作品榜: 展示唐诗、宋诗、宋词的作者作品排名。
  • 词牌名统计: 两宋时期受欢迎的词牌名统计。

数据集贡献

欢迎通过提交PR或通过issue讨论来优化和完善此数据库。

许可证

数据集遵循MIT许可证。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese-Poetry-Dataset的构建基于对互联网上广泛分布的古典文集进行系统性采集与整理。该数据集涵盖了唐诗、宋诗及宋词等多个文类,总计包含超过33万首诗歌,涉及近1.4万名唐代诗人和1.5千名宋代词人。数据采集过程虽未详细记录,但通过持续的爬取与中断恢复,最终形成了这一庞大的古典诗歌数据库。值得一提的是,2017年新增的全宋词数据集,其爬取过程及数据分析已在相关文献中详细阐述。
特点
Chinese-Poetry-Dataset的显著特点在于其全面性和多样性。该数据集不仅收录了大量的唐诗和宋诗,还包含了宋词、五代花间集、南唐二主词等,几乎涵盖了中国古典诗歌的各个重要时期和流派。此外,数据以JSON格式存储,便于检索和分析,为研究者提供了极大的便利。数据的高频词和作者作品榜的可视化分析,进一步增强了其学术价值和应用潜力。
使用方法
Chinese-Poetry-Dataset的使用方法多样,适用于多种研究与应用场景。研究者可以通过直接下载JSON格式的数据文件,进行文本分析、语言模型训练或文化研究。此外,该数据集也支持在线访问,用户可以通过相关网站进行诗词检索和学习。对于开发者而言,数据集的开源特性允许其集成到各种应用程序中,如诗词生成器、教育软件或文化展示平台,从而推动古典诗歌的现代化传播与应用。
背景与挑战
背景概述
中华古典诗词作为中华民族的文化瑰宝,承载着深厚的历史与文化价值。然而,尽管这些诗词文集在传统书籍中广泛流传,但现代社会中,许多人并未能轻易接触到这些珍贵的文化遗产。为解决这一问题,Chinese-Poetry-Dataset应运而生,该数据集由一群致力于传承中华文化的研究者于2017年创建,包含了5.5万首唐诗、26万首宋诗以及2.1万首宋词,涵盖了唐宋两朝近1.4万名诗人和1.5千名词人的作品。这一数据集的建立不仅为学术研究提供了丰富的资源,也为普通大众提供了便捷的电子版诗词文集,极大地促进了古典诗词的普及与传承。
当前挑战
尽管Chinese-Poetry-Dataset在传承中华古典诗词方面做出了巨大贡献,但其构建过程中仍面临诸多挑战。首先,数据的采集过程复杂且耗时,由于目标网站的限制,数据采集经常中断,导致项目进展缓慢。其次,数据的质量控制也是一个重要挑战,如何确保所采集诗词的准确性和完整性,避免错误或遗漏,是数据集构建过程中必须解决的问题。此外,随着时间的推移,如何持续更新和扩展数据集,以涵盖更多朝代和类型的诗词,也是未来需要面对的挑战。这些挑战不仅考验着数据集的维护者,也对相关领域的研究者提出了更高的要求。
常用场景
经典使用场景
在古典文学研究领域,Chinese-Poetry-Dataset 数据集的经典使用场景主要体现在对唐诗、宋诗及宋词的深度分析与挖掘。研究者可以利用该数据集进行高频词汇分析、作者作品榜统计以及词牌名偏好研究,从而揭示唐宋时期文学创作的内在规律与风格特征。此外,该数据集还为自然语言处理领域的研究提供了丰富的语料资源,支持如诗歌生成、文本分类等任务的模型训练与验证。
实际应用
在实际应用中,Chinese-Poetry-Dataset 数据集展现了广泛的潜力。例如,教育领域可以利用该数据集开发智能教学工具,帮助学生更直观地理解古典诗词的内涵与结构。文化传播方面,该数据集支持开发诗词推荐系统,为用户提供个性化的诗词阅读体验。此外,在创意产业中,数据集可用于生成具有古典风格的现代诗歌,为文学创作提供新的灵感来源。
衍生相关工作
基于 Chinese-Poetry-Dataset 数据集,已衍生出多项经典工作。例如,有研究者开发了基于字符级RNN的诗歌生成模型,能够自动创作符合古典风格的诗词。此外,还有团队利用该数据集构建了诗词周历、诗词桌面等应用,增强了古典文学的互动性与趣味性。这些衍生工作不仅丰富了数据集的应用场景,也为古典文学的数字化与智能化研究开辟了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录