古诗词数据集|古诗词研究数据集|文化遗产数据集

github2024-02-25 更新2024-05-31 收录

古诗词研究

文化遗产

下载链接：

https://github.com/CanvaChen/llm-dataset-chinese-poetry

下载链接

链接失效反馈

资源简介：

该数据集整理了从先秦到现代的古诗词，涵盖了多个历史时期和作者的作品，经过统一字体、ID映射和格式修正等处理，确保数据的质量和可用性。

This dataset compiles ancient poetry from the pre-Qin period to modern times, encompassing works from various historical periods and authors. It has undergone uniform font standardization, ID mapping, and format correction to ensure data quality and usability.

创建时间：

2023-09-10

原始信息汇总

数据集概述

数据来源

data目录：原始数据来源于chinese-poetry。
data2目录：原始数据来源于Poetry。

主要工作

统一字体：
- 繁体转简体，少数生僻字保留繁体。
- 英文标点转中文标点。
ID映射：
- 使用原始数据中的id或序号，格式为文件名拼音#序号。
统一格式： json { "id": "caocao#1", "title": "度关山", "author": "曹操", "content": "..." }
修正过滤：
- 修正或过滤标题漏字、标题错误、内容多符号、内容缺失等情况。
- 移除注释。

修订记录

data：
- 补充内容、删除多余标点、补全节选、删除多余注释等。
- 修正作者名、标题、内容中的错误。
data2：
- 修正内容中的错别字。

完成清单

data：
- 诗经 305
- 楚辞 65
- 曹操诗集 26
- 水墨唐诗 176
- 全唐诗 56315 / 57607
- 御定全唐诗 40552 / 43103
- 五代诗词 541 / 542
- 宋词 20270 / 21053
- 纳兰性德 258
data2：
- 汉 328 / 363
- 魏晋 2947 / 3020
- 南北朝 4480 / 4586
- 隋 1146 / 1170
- 元 36362 / 37375
- 明 232357 / 236957
- 清 88474 / 89089
- 近现代 28135 / 28419

AI搜集汇总

数据集介绍

构建方式

该古诗词数据集的构建过程严谨而细致，首先整合了多个来源的数据，涵盖了从先秦至现代的广泛时期。数据主要来源于两个GitHub项目：chinese-poetry和Poetry。在数据处理阶段，进行了繁体转简体、英文标点转中文标点的统一字体工作，同时保留了少数生僻字的繁体形式以确保跨平台的显示兼容性。此外，数据集还进行了ID映射和格式统一，确保每首诗词都有唯一标识符，并按照标准JSON格式存储。最后，通过修正和过滤，解决了标题漏字、内容多符号等问题，确保数据的高质量和一致性。

特点

该古诗词数据集具有显著的特点，首先是其广泛的时间跨度，从先秦至现代，几乎涵盖了中国古代诗词的全部历史。其次，数据集在内容上进行了细致的修正和过滤，确保了每首诗词的准确性和完整性。此外，数据集采用了统一的JSON格式，便于数据的标准化处理和分析。最后，数据集还特别注意了跨平台的兼容性，保留了部分繁体字以适应不同的操作系统。

使用方法

该古诗词数据集的使用方法简便而灵活。用户可以直接下载数据集的JSON文件，利用编程语言如Python进行数据读取和处理。数据集的结构清晰，每首诗词都包含ID、标题、作者和内容等字段，便于进行文本分析、情感分析等研究。此外，数据集还提供了修订记录和完成清单，用户可以根据这些信息了解数据的来源和处理过程，从而更加信任和有效地使用该数据集。

背景与挑战

背景概述

古诗词数据集汇聚了从先秦至现代的丰富诗词资源，由多个知名项目如[chinese-poetry](https://github.com/chinese-poetry/chinese-poetry)和[Poetry](https://github.com/Werneror/Poetry)提供原始数据。该数据集不仅统一了字体格式，将繁体转换为简体，并调整了标点符号，还通过ID映射确保了每首诗词的唯一标识。此外，数据集还进行了细致的修正和过滤，以确保内容的准确性和完整性。这一数据集的构建，极大地促进了古诗词研究的标准化和数字化，为学术界和爱好者提供了宝贵的资源。

当前挑战

古诗词数据集在构建过程中面临诸多挑战。首先，原始数据来源多样，格式各异，需要进行繁琐的统一处理，如繁简转换和标点调整。其次，数据中的错误和缺失情况较为普遍，如标题漏字、内容多符号等，这些都需要人工逐一校对和修正。此外，由于古诗词的特殊性，部分生僻字在不同系统中的显示问题也需特别处理。这些挑战不仅增加了数据处理的复杂性，也对数据质量提出了更高的要求。

常用场景

经典使用场景

古诗词数据集在文学研究领域中具有广泛的应用，尤其在古诗词文本分析、风格演变研究以及作者识别等方面。通过该数据集，研究者可以深入探讨不同历史时期诗词的韵律、意象和修辞手法的变化，从而揭示文学发展的脉络。此外，该数据集还可用于自然语言处理任务，如诗词生成、情感分析和文本分类，为现代技术与传统文化的结合提供了丰富的素材。

解决学术问题

古诗词数据集为学术界提供了宝贵的资源，解决了许多传统文学研究中的难题。首先，它填补了古诗词文本的缺失，通过统一格式和修正错误，确保了数据的完整性和准确性。其次，该数据集促进了跨时代的文学比较研究，帮助学者理解不同历史时期文学风格的演变。最后，它为文学与计算机科学的交叉研究提供了基础，推动了古诗词的数字化和智能化处理。

衍生相关工作

古诗词数据集的发布催生了一系列相关研究和工作。首先，基于该数据集的文学分析工具和平台不断涌现，为学者和爱好者提供了便捷的研究手段。其次，数据集的开放性促进了跨学科合作，如文学与计算机科学的结合，推动了古诗词的数字化保护和传承。此外，该数据集还激发了新的研究方向，如古诗词的情感计算和风格迁移，为文学研究带来了新的视角和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像，用于皮肤癌检测任务。数据集分为训练集、验证集和测试集，每张图像都附有详细的元数据，包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50，OTB100，VOT2014，VOT2015，TC128和ALOV300) 中的视频本质上不同。因此，我们提出了一个新的数据集 (UAV123)，其序列来自空中视点，其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧，使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外，请注意，文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录