five

中文《诗歌总集》

收藏
github2024-10-07 更新2024-10-09 收录
下载链接:
https://github.com/open-chinese/poetry-collection
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个收录所有中文诗词的数据集,旨在提供一个系统、完善、高质量的诗词数据集合。数据集包括诗词的收录、校正、鉴赏和评分,并标准化为统一的JSON格式。

This is a dataset dedicated to collecting all Chinese poetry and ci, aiming to provide a systematic, comprehensive and high-quality poetry data corpus. The dataset encompasses the curation, proofreading, appreciation and scoring of the poetic works, and is standardized into a unified JSON format.
创建时间:
2024-10-07
原始信息汇总

中文《诗歌总集》数据集概述

数据集目标

  • 收录所有中文诗词
  • 校正诗词内容
  • 鉴赏、翻译、考究诗词的创作背景
  • 从不同角度对诗词进行评分评级

数据格式

每一首诗词统一建模,标准化为如下的JSON格式,所有内容使用简体中文:

json { "id": "全局唯一标识,title+author+content的hash id", "title": "标题/词牌", "content": "内容", "author": "作者", "form": "文学体裁,诗、词、曲- optional", "dynasty": "创作朝代、时期 - optional", "year": "创作年代 - optional", "volume": "收录诗集或者著作名称 - optional", "introduction": "作品说明 - optional", "traditional": { "title": "繁体标题- optional", "author": "繁体作者- optional", "content": "繁体内容- optional" }, "translation": "现在简体中文翻译 - optional", "metadata": { "ai_score": "AI视角的分数- optional", "human_score": "人的视角分数- optional", "popularity": "流行度- optional", "words_count": "作品字数- optional", "sentence_count": "作品句子数- optional", "vector": "向量化" } }

搜集汇总
数据集介绍
main_image_url
构建方式
《诗歌总集》数据集的构建,始于对中文诗词全面且系统的收集与整理。该数据集通过广泛搜集从《诗经》至清代各个历史时期的诗词作品,涵盖了周、汉、三国、两晋、唐、宋、元等多个朝代,累计收录了39万首诗词曲赋。每首诗词均经过标准化处理,以统一的JSON格式存储,确保数据的一致性和可读性。此外,数据集还计划进行内容的校正与鉴赏,以提升数据的质量和学术价值。
特点
《诗歌总集》数据集的显著特点在于其全面性和系统性。该数据集不仅收录了各个历史时期的诗词作品,还涵盖了不同文学体裁,如诗、词、曲等。每首诗词均以标准化的JSON格式存储,便于数据分析和处理。此外,数据集还计划引入大语言模型进行诗词的鉴赏与评分,以提供更深层次的文学分析和评价。
使用方法
《诗歌总集》数据集的使用方法简便且灵活。用户可以通过访问GitHub仓库获取数据,数据以JSON格式存储,便于直接导入各类数据分析工具。每首诗词包含标题、作者、内容、朝代及所属文集信息,用户可根据需求进行筛选和分析。此外,数据集还支持未来的扩展,如诗词鉴赏和评分功能的实现,将为用户提供更丰富的文学研究资源。
背景与挑战
背景概述
在互联网高度发达的今天,尽管信息获取变得前所未有的便捷,但系统、完善且高质量的中文诗词数据集依然稀缺。为填补这一空白,《诗歌总集》数据集应运而生,由一群致力于传承与发扬中华文化的研究者与机构共同创建。该数据集自发布以来,已收录了多达39万首诗词曲赋,涵盖从《诗经》至清代各个历史时期的经典作品,为学术研究、文化传播及教育提供了宝贵的资源。其核心研究问题在于如何系统地整理、校正并鉴赏这些文化遗产,以期在现代科技的辅助下,更好地传承与推广中华诗词之美。
当前挑战
《诗歌总集》数据集在构建过程中面临诸多挑战。首先,诗词内容的校正工作繁复,尤其是处理那些现代电脑编码无法表示的古文字,需要耗费大量时间和精力。其次,诗词的鉴赏与翻译涉及深厚的文学功底和跨文化理解,如何准确传达原作的意境与情感是一大难题。此外,诗词的评分评级虽有助于筛选优秀作品,但文学评价的主观性与客观性并存,量化评分标准极具挑战性。最后,利用大语言模型进行诗词赏析的尝试,虽有望提升数据集的应用价值,但其过程复杂且耗时,需持续优化与调整。
常用场景
经典使用场景
《诗歌总集》数据集的经典使用场景在于其广泛的诗词收录,为文学研究者提供了丰富的素材。研究者可以利用该数据集进行古代诗歌的文本分析、风格比较和文化研究,从而深入探讨不同朝代诗歌的演变及其背后的社会文化背景。此外,该数据集还可用于自然语言处理(NLP)领域的训练和测试,如诗词生成、情感分析和文本分类等任务。
解决学术问题
《诗歌总集》数据集解决了文学研究中诗词资源匮乏的问题,为学术界提供了系统、全面的中文诗词数据。通过该数据集,学者们能够进行跨时代的诗歌比较研究,揭示诗歌创作的规律和变化趋势。同时,数据集的标准化格式也便于计算机处理,推动了文学与技术的结合,为文学量化研究提供了新的可能性。
衍生相关工作
基于《诗歌总集》数据集,衍生了许多相关的经典工作。例如,有研究者利用该数据集开发了诗词生成模型,能够自动创作符合特定风格的诗词作品。此外,还有学者进行了诗词情感分析,探讨了不同朝代诗歌的情感表达特点。这些工作不仅丰富了文学研究的工具和方法,也为自然语言处理领域提供了宝贵的数据资源和研究案例。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务