古诗词数据集

github2024-02-25 更新2024-05-31 收录

下载链接：

https://github.com/CanvaChen/llm-dataset-chinese-poetry

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集整理了从先秦到现代的古诗词，涵盖了多个历史时期和作者的作品，经过统一字体、ID映射和格式修正等处理，确保数据的质量和可用性。

This dataset compiles ancient poetry from the pre-Qin period to modern times, encompassing works from various historical periods and authors. It has undergone uniform font standardization, ID mapping, and format correction to ensure data quality and usability.

创建时间：

2023-09-10

原始信息汇总

数据集概述

数据来源

data目录：原始数据来源于chinese-poetry。
data2目录：原始数据来源于Poetry。

主要工作

统一字体：
- 繁体转简体，少数生僻字保留繁体。
- 英文标点转中文标点。
ID映射：
- 使用原始数据中的id或序号，格式为文件名拼音#序号。
统一格式： json { "id": "caocao#1", "title": "度关山", "author": "曹操", "content": "..." }
修正过滤：
- 修正或过滤标题漏字、标题错误、内容多符号、内容缺失等情况。
- 移除注释。

修订记录

data：
- 补充内容、删除多余标点、补全节选、删除多余注释等。
- 修正作者名、标题、内容中的错误。
data2：
- 修正内容中的错别字。

完成清单

data：
- 诗经 305
- 楚辞 65
- 曹操诗集 26
- 水墨唐诗 176
- 全唐诗 56315 / 57607
- 御定全唐诗 40552 / 43103
- 五代诗词 541 / 542
- 宋词 20270 / 21053
- 纳兰性德 258
data2：
- 汉 328 / 363
- 魏晋 2947 / 3020
- 南北朝 4480 / 4586
- 隋 1146 / 1170
- 元 36362 / 37375
- 明 232357 / 236957
- 清 88474 / 89089
- 近现代 28135 / 28419

搜集汇总

数据集介绍

构建方式

该古诗词数据集的构建过程严谨而细致，首先整合了多个来源的数据，涵盖了从先秦至现代的广泛时期。数据主要来源于两个GitHub项目：chinese-poetry和Poetry。在数据处理阶段，进行了繁体转简体、英文标点转中文标点的统一字体工作，同时保留了少数生僻字的繁体形式以确保跨平台的显示兼容性。此外，数据集还进行了ID映射和格式统一，确保每首诗词都有唯一标识符，并按照标准JSON格式存储。最后，通过修正和过滤，解决了标题漏字、内容多符号等问题，确保数据的高质量和一致性。

特点

该古诗词数据集具有显著的特点，首先是其广泛的时间跨度，从先秦至现代，几乎涵盖了中国古代诗词的全部历史。其次，数据集在内容上进行了细致的修正和过滤，确保了每首诗词的准确性和完整性。此外，数据集采用了统一的JSON格式，便于数据的标准化处理和分析。最后，数据集还特别注意了跨平台的兼容性，保留了部分繁体字以适应不同的操作系统。

使用方法

该古诗词数据集的使用方法简便而灵活。用户可以直接下载数据集的JSON文件，利用编程语言如Python进行数据读取和处理。数据集的结构清晰，每首诗词都包含ID、标题、作者和内容等字段，便于进行文本分析、情感分析等研究。此外，数据集还提供了修订记录和完成清单，用户可以根据这些信息了解数据的来源和处理过程，从而更加信任和有效地使用该数据集。

背景与挑战

背景概述

古诗词数据集汇聚了从先秦至现代的丰富诗词资源，由多个知名项目如[chinese-poetry](https://github.com/chinese-poetry/chinese-poetry)和[Poetry](https://github.com/Werneror/Poetry)提供原始数据。该数据集不仅统一了字体格式，将繁体转换为简体，并调整了标点符号，还通过ID映射确保了每首诗词的唯一标识。此外，数据集还进行了细致的修正和过滤，以确保内容的准确性和完整性。这一数据集的构建，极大地促进了古诗词研究的标准化和数字化，为学术界和爱好者提供了宝贵的资源。

当前挑战

古诗词数据集在构建过程中面临诸多挑战。首先，原始数据来源多样，格式各异，需要进行繁琐的统一处理，如繁简转换和标点调整。其次，数据中的错误和缺失情况较为普遍，如标题漏字、内容多符号等，这些都需要人工逐一校对和修正。此外，由于古诗词的特殊性，部分生僻字在不同系统中的显示问题也需特别处理。这些挑战不仅增加了数据处理的复杂性，也对数据质量提出了更高的要求。

常用场景

经典使用场景

古诗词数据集在文学研究领域中具有广泛的应用，尤其在古诗词文本分析、风格演变研究以及作者识别等方面。通过该数据集，研究者可以深入探讨不同历史时期诗词的韵律、意象和修辞手法的变化，从而揭示文学发展的脉络。此外，该数据集还可用于自然语言处理任务，如诗词生成、情感分析和文本分类，为现代技术与传统文化的结合提供了丰富的素材。

解决学术问题

古诗词数据集为学术界提供了宝贵的资源，解决了许多传统文学研究中的难题。首先，它填补了古诗词文本的缺失，通过统一格式和修正错误，确保了数据的完整性和准确性。其次，该数据集促进了跨时代的文学比较研究，帮助学者理解不同历史时期文学风格的演变。最后，它为文学与计算机科学的交叉研究提供了基础，推动了古诗词的数字化和智能化处理。

衍生相关工作

古诗词数据集的发布催生了一系列相关研究和工作。首先，基于该数据集的文学分析工具和平台不断涌现，为学者和爱好者提供了便捷的研究手段。其次，数据集的开放性促进了跨学科合作，如文学与计算机科学的结合，推动了古诗词的数字化保护和传承。此外，该数据集还激发了新的研究方向，如古诗词的情感计算和风格迁移，为文学研究带来了新的视角和方法。

以上内容由遇见数据集搜集并总结生成