中文《诗歌总集》|中文诗词数据集|数据集标准化数据集

github2024-10-07 更新2024-10-09 收录

中文诗词

数据集标准化

下载链接：

https://github.com/open-chinese/poetry-collection

下载链接

链接失效反馈

资源简介：

这是一个收录所有中文诗词的数据集，旨在提供一个系统、完善、高质量的诗词数据集合。数据集包括诗词的收录、校正、鉴赏和评分，并标准化为统一的JSON格式。

创建时间：

2024-10-07

原始信息汇总

中文《诗歌总集》数据集概述

数据集目标

收录所有中文诗词
校正诗词内容
鉴赏、翻译、考究诗词的创作背景
从不同角度对诗词进行评分评级

数据格式

每一首诗词统一建模，标准化为如下的JSON格式，所有内容使用简体中文：

json { "id": "全局唯一标识，title+author+content的hash id", "title": "标题/词牌", "content": "内容", "author": "作者", "form": "文学体裁，诗、词、曲- optional", "dynasty": "创作朝代、时期 - optional", "year": "创作年代 - optional", "volume": "收录诗集或者著作名称 - optional", "introduction": "作品说明 - optional", "traditional": { "title": "繁体标题- optional", "author": "繁体作者- optional", "content": "繁体内容- optional" }, "translation": "现在简体中文翻译 - optional", "metadata": { "ai_score": "AI视角的分数- optional", "human_score": "人的视角分数- optional", "popularity": "流行度- optional", "words_count": "作品字数- optional", "sentence_count": "作品句子数- optional", "vector": "向量化" } }

AI搜集汇总

数据集介绍

构建方式

《诗歌总集》数据集的构建，始于对中文诗词全面且系统的收集与整理。该数据集通过广泛搜集从《诗经》至清代各个历史时期的诗词作品，涵盖了周、汉、三国、两晋、唐、宋、元等多个朝代，累计收录了39万首诗词曲赋。每首诗词均经过标准化处理，以统一的JSON格式存储，确保数据的一致性和可读性。此外，数据集还计划进行内容的校正与鉴赏，以提升数据的质量和学术价值。

特点

《诗歌总集》数据集的显著特点在于其全面性和系统性。该数据集不仅收录了各个历史时期的诗词作品，还涵盖了不同文学体裁，如诗、词、曲等。每首诗词均以标准化的JSON格式存储，便于数据分析和处理。此外，数据集还计划引入大语言模型进行诗词的鉴赏与评分，以提供更深层次的文学分析和评价。

使用方法

《诗歌总集》数据集的使用方法简便且灵活。用户可以通过访问GitHub仓库获取数据，数据以JSON格式存储，便于直接导入各类数据分析工具。每首诗词包含标题、作者、内容、朝代及所属文集信息，用户可根据需求进行筛选和分析。此外，数据集还支持未来的扩展，如诗词鉴赏和评分功能的实现，将为用户提供更丰富的文学研究资源。

背景与挑战

背景概述

在互联网高度发达的今天，尽管信息获取变得前所未有的便捷，但系统、完善且高质量的中文诗词数据集依然稀缺。为填补这一空白，《诗歌总集》数据集应运而生，由一群致力于传承与发扬中华文化的研究者与机构共同创建。该数据集自发布以来，已收录了多达39万首诗词曲赋，涵盖从《诗经》至清代各个历史时期的经典作品，为学术研究、文化传播及教育提供了宝贵的资源。其核心研究问题在于如何系统地整理、校正并鉴赏这些文化遗产，以期在现代科技的辅助下，更好地传承与推广中华诗词之美。

当前挑战

《诗歌总集》数据集在构建过程中面临诸多挑战。首先，诗词内容的校正工作繁复，尤其是处理那些现代电脑编码无法表示的古文字，需要耗费大量时间和精力。其次，诗词的鉴赏与翻译涉及深厚的文学功底和跨文化理解，如何准确传达原作的意境与情感是一大难题。此外，诗词的评分评级虽有助于筛选优秀作品，但文学评价的主观性与客观性并存，量化评分标准极具挑战性。最后，利用大语言模型进行诗词赏析的尝试，虽有望提升数据集的应用价值，但其过程复杂且耗时，需持续优化与调整。

常用场景

经典使用场景

《诗歌总集》数据集的经典使用场景在于其广泛的诗词收录，为文学研究者提供了丰富的素材。研究者可以利用该数据集进行古代诗歌的文本分析、风格比较和文化研究，从而深入探讨不同朝代诗歌的演变及其背后的社会文化背景。此外，该数据集还可用于自然语言处理（NLP）领域的训练和测试，如诗词生成、情感分析和文本分类等任务。

解决学术问题

《诗歌总集》数据集解决了文学研究中诗词资源匮乏的问题，为学术界提供了系统、全面的中文诗词数据。通过该数据集，学者们能够进行跨时代的诗歌比较研究，揭示诗歌创作的规律和变化趋势。同时，数据集的标准化格式也便于计算机处理，推动了文学与技术的结合，为文学量化研究提供了新的可能性。

衍生相关工作

基于《诗歌总集》数据集，衍生了许多相关的经典工作。例如，有研究者利用该数据集开发了诗词生成模型，能够自动创作符合特定风格的诗词作品。此外，还有学者进行了诗词情感分析，探讨了不同朝代诗歌的情感表达特点。这些工作不仅丰富了文学研究的工具和方法，也为自然语言处理领域提供了宝贵的数据资源和研究案例。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集，旨在微调大型语言模型。该数据集包含三个部分：指令（问题）、摘要（从PubMed检索的相关摘要，包含PubMed ID、摘要标题和内容）和答案（预期答案，包含PubMed ID形式的参考）。数据集通过半自动方式创建，利用了PubMedQA数据集中的问题。

huggingface 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录