中文《诗歌总集》

github2024-10-07 更新2024-10-09 收录

下载链接：

https://github.com/open-chinese/poetry-collection

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个收录所有中文诗词的数据集，旨在提供一个系统、完善、高质量的诗词数据集合。数据集包括诗词的收录、校正、鉴赏和评分，并标准化为统一的JSON格式。

This is a dataset dedicated to collecting all Chinese poetry and ci, aiming to provide a systematic, comprehensive and high-quality poetry data corpus. The dataset encompasses the curation, proofreading, appreciation and scoring of the poetic works, and is standardized into a unified JSON format.

创建时间：

2024-10-07

原始信息汇总

中文《诗歌总集》数据集概述

数据集目标

收录所有中文诗词
校正诗词内容
鉴赏、翻译、考究诗词的创作背景
从不同角度对诗词进行评分评级

数据格式

每一首诗词统一建模，标准化为如下的JSON格式，所有内容使用简体中文：

json { "id": "全局唯一标识，title+author+content的hash id", "title": "标题/词牌", "content": "内容", "author": "作者", "form": "文学体裁，诗、词、曲- optional", "dynasty": "创作朝代、时期 - optional", "year": "创作年代 - optional", "volume": "收录诗集或者著作名称 - optional", "introduction": "作品说明 - optional", "traditional": { "title": "繁体标题- optional", "author": "繁体作者- optional", "content": "繁体内容- optional" }, "translation": "现在简体中文翻译 - optional", "metadata": { "ai_score": "AI视角的分数- optional", "human_score": "人的视角分数- optional", "popularity": "流行度- optional", "words_count": "作品字数- optional", "sentence_count": "作品句子数- optional", "vector": "向量化" } }

搜集汇总

数据集介绍

构建方式

《诗歌总集》数据集的构建，始于对中文诗词全面且系统的收集与整理。该数据集通过广泛搜集从《诗经》至清代各个历史时期的诗词作品，涵盖了周、汉、三国、两晋、唐、宋、元等多个朝代，累计收录了39万首诗词曲赋。每首诗词均经过标准化处理，以统一的JSON格式存储，确保数据的一致性和可读性。此外，数据集还计划进行内容的校正与鉴赏，以提升数据的质量和学术价值。

特点

《诗歌总集》数据集的显著特点在于其全面性和系统性。该数据集不仅收录了各个历史时期的诗词作品，还涵盖了不同文学体裁，如诗、词、曲等。每首诗词均以标准化的JSON格式存储，便于数据分析和处理。此外，数据集还计划引入大语言模型进行诗词的鉴赏与评分，以提供更深层次的文学分析和评价。

使用方法

《诗歌总集》数据集的使用方法简便且灵活。用户可以通过访问GitHub仓库获取数据，数据以JSON格式存储，便于直接导入各类数据分析工具。每首诗词包含标题、作者、内容、朝代及所属文集信息，用户可根据需求进行筛选和分析。此外，数据集还支持未来的扩展，如诗词鉴赏和评分功能的实现，将为用户提供更丰富的文学研究资源。

背景与挑战

背景概述

在互联网高度发达的今天，尽管信息获取变得前所未有的便捷，但系统、完善且高质量的中文诗词数据集依然稀缺。为填补这一空白，《诗歌总集》数据集应运而生，由一群致力于传承与发扬中华文化的研究者与机构共同创建。该数据集自发布以来，已收录了多达39万首诗词曲赋，涵盖从《诗经》至清代各个历史时期的经典作品，为学术研究、文化传播及教育提供了宝贵的资源。其核心研究问题在于如何系统地整理、校正并鉴赏这些文化遗产，以期在现代科技的辅助下，更好地传承与推广中华诗词之美。

当前挑战

《诗歌总集》数据集在构建过程中面临诸多挑战。首先，诗词内容的校正工作繁复，尤其是处理那些现代电脑编码无法表示的古文字，需要耗费大量时间和精力。其次，诗词的鉴赏与翻译涉及深厚的文学功底和跨文化理解，如何准确传达原作的意境与情感是一大难题。此外，诗词的评分评级虽有助于筛选优秀作品，但文学评价的主观性与客观性并存，量化评分标准极具挑战性。最后，利用大语言模型进行诗词赏析的尝试，虽有望提升数据集的应用价值，但其过程复杂且耗时，需持续优化与调整。

常用场景

经典使用场景

《诗歌总集》数据集的经典使用场景在于其广泛的诗词收录，为文学研究者提供了丰富的素材。研究者可以利用该数据集进行古代诗歌的文本分析、风格比较和文化研究，从而深入探讨不同朝代诗歌的演变及其背后的社会文化背景。此外，该数据集还可用于自然语言处理（NLP）领域的训练和测试，如诗词生成、情感分析和文本分类等任务。

解决学术问题

《诗歌总集》数据集解决了文学研究中诗词资源匮乏的问题，为学术界提供了系统、全面的中文诗词数据。通过该数据集，学者们能够进行跨时代的诗歌比较研究，揭示诗歌创作的规律和变化趋势。同时，数据集的标准化格式也便于计算机处理，推动了文学与技术的结合，为文学量化研究提供了新的可能性。

衍生相关工作

基于《诗歌总集》数据集，衍生了许多相关的经典工作。例如，有研究者利用该数据集开发了诗词生成模型，能够自动创作符合特定风格的诗词作品。此外，还有学者进行了诗词情感分析，探讨了不同朝代诗歌的情感表达特点。这些工作不仅丰富了文学研究的工具和方法，也为自然语言处理领域提供了宝贵的数据资源和研究案例。

以上内容由遇见数据集搜集并总结生成