kakooch/ganjoor-processed
收藏Hugging Face2023-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kakooch/ganjoor-processed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含丰富的波斯诗歌及其相关的诗人和诗句元数据。数据涵盖了多位诗人及其诗歌,并包括诗句及其在每首诗中的位置信息。数据集分为训练集和测试集,分别包含每个诗人每首诗的90%和10%的诗句。数据集来源于Ganjoor项目,包含多个表格(如poem、poet和verse表),并通过ID字段进行关联。数据集可用于波斯诗歌的自然语言处理任务,如诗歌生成、诗人识别和风格分析。
提供机构:
kakooch
原始信息汇总
Persian Poetry Dataset
数据集描述
概述
该数据集包含丰富的波斯诗歌及其相关元数据,涵盖了多位诗人和他们的诗作,包括诗句及其在每首诗中的位置信息。
数据收集
- 数据来源: 数据来自 Ganjoor 项目。具体的数据库文件可以在其 GitHub 仓库的 发布部分 找到。
- 时间范围: 2023年10月12日
- 收集方法: 数据通过从 Ganjoor 项目的 GitHub 仓库下载原始数据库文件收集。
数据结构
数据集结构化为多个表,特别是 poem、poet 和 verse 表,分别包含关于诗作、诗人和诗句的信息。这些表通过各种 ID 字段连接,允许数据一起查询和连接。
-
Poem 表:
id:诗作的唯一标识符。cat_id:链接到诗人信息的分类标识符。title:诗作的标题。url:与诗作相关的 URL。
-
Poet 表:
id:诗人的唯一标识符。name:诗人的名字。cat_id:分类标识符。description:诗人的文本描述或传记。
-
Verse 表:
poem_id:将诗句链接到特定诗作的标识符。vorder:诗句在诗作中的顺序。position:诗句的位置,用于确定两个诗句是否形成半句。text:诗句的文本。
数据示例
json { "poet": "示例诗人", "title": "示例诗作标题", "content": [ { "hemistich": { "verse0": "半句的第一部分", "verse1": "半句的第二部分" } }, { "verse": {"text": "独立的诗句"} } ] }
数据集使用
使用场景
该数据集可用于与波斯诗歌相关的各种自然语言处理和分析任务,例如:
- 诗歌生成
- 诗人识别
- 风格分析
挑战与限制
- 数据集不包含超过100个字符的长诗句。
- 一些诗作可能包含形成半句的诗句,这些在数据集中以特定结构表示。
许可证
GPL-2(GNU 通用公共许可证)继承自原始来源
附加信息
引用
Persian Poetry Dataset. Collected by Kakooch from the Ganjoor Project. Available at: https://huggingface.co/datasets/persian_poetry



