kakooch/ganjoor-processed

Name: kakooch/ganjoor-processed
Creator: kakooch
Published: 2023-10-14 06:21:52
License: 暂无描述

Hugging Face2023-10-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kakooch/ganjoor-processed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含丰富的波斯诗歌及其相关的诗人和诗句元数据。数据涵盖了多位诗人及其诗歌，并包括诗句及其在每首诗中的位置信息。数据集分为训练集和测试集，分别包含每个诗人每首诗的90%和10%的诗句。数据集来源于Ganjoor项目，包含多个表格（如poem、poet和verse表），并通过ID字段进行关联。数据集可用于波斯诗歌的自然语言处理任务，如诗歌生成、诗人识别和风格分析。

提供机构：

kakooch

原始信息汇总

Persian Poetry Dataset

数据集描述

概述

该数据集包含丰富的波斯诗歌及其相关元数据，涵盖了多位诗人和他们的诗作，包括诗句及其在每首诗中的位置信息。

数据收集

数据来源： 数据来自 Ganjoor 项目。具体的数据库文件可以在其 GitHub 仓库的发布部分找到。
时间范围： 2023年10月12日
收集方法： 数据通过从 Ganjoor 项目的 GitHub 仓库下载原始数据库文件收集。

数据结构

数据集结构化为多个表，特别是 poem、poet 和 verse 表，分别包含关于诗作、诗人和诗句的信息。这些表通过各种 ID 字段连接，允许数据一起查询和连接。

Poem 表：
- id：诗作的唯一标识符。
- cat_id：链接到诗人信息的分类标识符。
- title：诗作的标题。
- url：与诗作相关的 URL。
Poet 表：
- id：诗人的唯一标识符。
- name：诗人的名字。
- cat_id：分类标识符。
- description：诗人的文本描述或传记。
Verse 表：
- poem_id：将诗句链接到特定诗作的标识符。
- vorder：诗句在诗作中的顺序。
- position：诗句的位置，用于确定两个诗句是否形成半句。
- text：诗句的文本。

数据示例

json { "poet": "示例诗人", "title": "示例诗作标题", "content": [ { "hemistich": { "verse0": "半句的第一部分", "verse1": "半句的第二部分" } }, { "verse": {"text": "独立的诗句"} } ] }