five

kakooch/ganjoor-processed

收藏
Hugging Face2023-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kakooch/ganjoor-processed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含丰富的波斯诗歌及其相关的诗人和诗句元数据。数据涵盖了多位诗人及其诗歌,并包括诗句及其在每首诗中的位置信息。数据集分为训练集和测试集,分别包含每个诗人每首诗的90%和10%的诗句。数据集来源于Ganjoor项目,包含多个表格(如poem、poet和verse表),并通过ID字段进行关联。数据集可用于波斯诗歌的自然语言处理任务,如诗歌生成、诗人识别和风格分析。
提供机构:
kakooch
原始信息汇总

Persian Poetry Dataset

数据集描述

概述

该数据集包含丰富的波斯诗歌及其相关元数据,涵盖了多位诗人和他们的诗作,包括诗句及其在每首诗中的位置信息。

数据收集

  • 数据来源: 数据来自 Ganjoor 项目。具体的数据库文件可以在其 GitHub 仓库的 发布部分 找到。
  • 时间范围: 2023年10月12日
  • 收集方法: 数据通过从 Ganjoor 项目的 GitHub 仓库下载原始数据库文件收集。

数据结构

数据集结构化为多个表,特别是 poempoetverse 表,分别包含关于诗作、诗人和诗句的信息。这些表通过各种 ID 字段连接,允许数据一起查询和连接。

  • Poem 表:

    • id:诗作的唯一标识符。
    • cat_id:链接到诗人信息的分类标识符。
    • title:诗作的标题。
    • url:与诗作相关的 URL。
  • Poet 表:

    • id:诗人的唯一标识符。
    • name:诗人的名字。
    • cat_id:分类标识符。
    • description:诗人的文本描述或传记。
  • Verse 表:

    • poem_id:将诗句链接到特定诗作的标识符。
    • vorder:诗句在诗作中的顺序。
    • position:诗句的位置,用于确定两个诗句是否形成半句。
    • text:诗句的文本。

数据示例

json { "poet": "示例诗人", "title": "示例诗作标题", "content": [ { "hemistich": { "verse0": "半句的第一部分", "verse1": "半句的第二部分" } }, { "verse": {"text": "独立的诗句"} } ] }

数据集使用

使用场景

该数据集可用于与波斯诗歌相关的各种自然语言处理和分析任务,例如:

  • 诗歌生成
  • 诗人识别
  • 风格分析

挑战与限制

  • 数据集不包含超过100个字符的长诗句。
  • 一些诗作可能包含形成半句的诗句,这些在数据集中以特定结构表示。

许可证

GPL-2(GNU 通用公共许可证)继承自原始来源

附加信息

引用

Persian Poetry Dataset. Collected by Kakooch from the Ganjoor Project. Available at: https://huggingface.co/datasets/persian_poetry

数据集链接

从 Hugging Face 下载数据集

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作