Persian poems corpus

github2020-05-02 更新2024-05-31 收录

下载链接：

https://github.com/Mahbub-Mt/Persian_poems_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含48位波斯诗人的诗歌文档，分为原始文档、规范化文档和去除停用词的文档三个部分。数据集用于NLP任务，每个诗人对应一个文档。

This dataset comprises poetry documents from 48 Persian poets, categorized into three sections: original documents, normalized documents, and documents with stop words removed. It is designed for NLP tasks, with each poet corresponding to a single document.

创建时间：

2020-05-02

原始信息汇总

数据集概述

数据集名称

Persian poems corpus

数据集内容

包含48位波斯诗人的诗歌文档。
每位诗人对应一个文档。

数据集结构

原始文档：位于original文件夹，内容为从ganjoor网站抓取的原始文档。
标准化文档：位于normalized文件夹，文档中的字母已标准化，移除了网络抓取过程中不必要的字母，并替换了一些阿拉伯字母为对应的波斯字母。
移除停用词的文档：位于Stop words removed文件夹，每份文档中的停用词已被移除。

诗人列表

数据集包含48位诗人，他们的出生年代跨越从公元前10世纪到现代。每位诗人的文档名称与其在数据集中的名称一致。

示例诗人信息

诗人名称	文档名称	链接至Wikipedia	波斯语名称
Abu Said Abul Kheayr	abusaeed.txt	here	ابوسعید ابوالخیر
Amir Muizzi	amir.txt	here	امیرمعزی
Awhad ad Din Anvari	anvari.txt	here	اوحد الدین انوری
Fakkhruddin Asad Gurgani	asad.txt	here	فخرادلین اسعد گرگانی
Asadi Tusi	asadi.txt	here	اسدی توسی

搜集汇总

数据集介绍

构建方式

该数据集的构建采用网络爬虫技术，从ganjoor.com网站上抓取波斯诗人作品。数据集分为三个子集：原始文档集、规范化文档集以及去除停用词后的文档集。每个子集包含48位诗人的作品文档，分别以诗人的名字命名。

特点

波斯诗歌数据集具有以下特点：包含从10世纪至今的48位波斯诗人的作品；文档分为原始、规范化和去停用词三种形式，以适应不同的文本处理需求；提供了每位诗人的维基百科链接，便于用户了解更多背景信息。

使用方法

用户可以根据需求选择原始、规范化的或去停用词的文档进行使用。数据集适用于文本分析、自然语言处理、文学研究等领域。用户可以直接下载相应的文件夹，按照诗人名字命名的文本文件进行读取和分析。

背景与挑战

背景概述

Persian poems corpus 数据集是一组丰富的波斯诗歌集合，旨在为自然语言处理、文学研究以及波斯文化传承等领域提供宝贵的资源。该数据集由48位波斯诗人的作品组成，时间跨度从公元前10世纪直至现代。这些诗歌作品最初从ganjoor.com网站进行网络抓取，随后经过字母标准化和停用词移除等预处理步骤，以增强数据的质量和可用性。该数据集的创建，不仅为波斯文学研究提供了实证基础，也对推动相关领域的学术交流和进步产生了积极影响。

当前挑战

在构建Persian poems corpus数据集的过程中，研究人员面临了多方面的挑战。首先，波斯诗歌的文本抓取和预处理涉及到语言特有字符的处理，以及从非结构化数据中提取结构化信息的问题。其次，由于波斯诗歌中存在着丰富的历史和文化背景，对诗歌内容的理解和标注需要深厚的波斯文学和语言学知识。此外，构建一个全面且具有代表性的诗人名单，确保不同时期和流派的诗歌作品得到均衡的覆盖，也是数据集构建中的一个重要挑战。

常用场景

经典使用场景

在自然语言处理与文学研究领域，Persian poems corpus数据集被广泛用于分析和研究波斯诗歌的语言特征与文学价值。该数据集包含48位诗人作品，跨越了从公元前10世纪至今的历史时期，为学者提供了丰富的文本资源，以便于进行文本挖掘、风格分析以及诗歌鉴赏等研究。

实际应用

在实际应用中，Persian poems corpus数据集不仅服务于学术研究，还被应用于波斯语言教学、波斯文化遗产的数字化保存与传播等领域，有助于提升公众对波斯文化的认识和理解。

衍生相关工作

基于Persian poems corpus数据集，衍生出了一系列相关研究工作，包括诗人风格对比分析、诗歌情感分类研究、历史时期文学特点的演变研究等，这些工作进一步拓宽了波斯文学研究的视野，丰富了研究手段和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集