Persian poems corpus
收藏github2020-05-02 更新2024-05-31 收录
下载链接:
https://github.com/Mahbub-Mt/Persian_poems_corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含48位波斯诗人的诗歌文档,分为原始文档、规范化文档和去除停用词的文档三个部分。数据集用于NLP任务,每个诗人对应一个文档。
This dataset comprises poetry documents from 48 Persian poets, categorized into three sections: original documents, normalized documents, and documents with stop words removed. It is designed for NLP tasks, with each poet corresponding to a single document.
创建时间:
2020-05-02
原始信息汇总
数据集概述
数据集名称
- Persian poems corpus
数据集内容
- 包含48位波斯诗人的诗歌文档。
- 每位诗人对应一个文档。
数据集结构
- 原始文档:位于
original文件夹,内容为从ganjoor网站抓取的原始文档。 - 标准化文档:位于
normalized文件夹,文档中的字母已标准化,移除了网络抓取过程中不必要的字母,并替换了一些阿拉伯字母为对应的波斯字母。 - 移除停用词的文档:位于
Stop words removed文件夹,每份文档中的停用词已被移除。
诗人列表
- 数据集包含48位诗人,他们的出生年代跨越从公元前10世纪到现代。每位诗人的文档名称与其在数据集中的名称一致。
示例诗人信息
搜集汇总
数据集介绍

构建方式
该数据集的构建采用网络爬虫技术,从ganjoor.com网站上抓取波斯诗人作品。数据集分为三个子集:原始文档集、规范化文档集以及去除停用词后的文档集。每个子集包含48位诗人的作品文档,分别以诗人的名字命名。
特点
波斯诗歌数据集具有以下特点:包含从10世纪至今的48位波斯诗人的作品;文档分为原始、规范化和去停用词三种形式,以适应不同的文本处理需求;提供了每位诗人的维基百科链接,便于用户了解更多背景信息。
使用方法
用户可以根据需求选择原始、规范化的或去停用词的文档进行使用。数据集适用于文本分析、自然语言处理、文学研究等领域。用户可以直接下载相应的文件夹,按照诗人名字命名的文本文件进行读取和分析。
背景与挑战
背景概述
Persian poems corpus 数据集是一组丰富的波斯诗歌集合,旨在为自然语言处理、文学研究以及波斯文化传承等领域提供宝贵的资源。该数据集由48位波斯诗人的作品组成,时间跨度从公元前10世纪直至现代。这些诗歌作品最初从ganjoor.com网站进行网络抓取,随后经过字母标准化和停用词移除等预处理步骤,以增强数据的质量和可用性。该数据集的创建,不仅为波斯文学研究提供了实证基础,也对推动相关领域的学术交流和进步产生了积极影响。
当前挑战
在构建Persian poems corpus数据集的过程中,研究人员面临了多方面的挑战。首先,波斯诗歌的文本抓取和预处理涉及到语言特有字符的处理,以及从非结构化数据中提取结构化信息的问题。其次,由于波斯诗歌中存在着丰富的历史和文化背景,对诗歌内容的理解和标注需要深厚的波斯文学和语言学知识。此外,构建一个全面且具有代表性的诗人名单,确保不同时期和流派的诗歌作品得到均衡的覆盖,也是数据集构建中的一个重要挑战。
常用场景
经典使用场景
在自然语言处理与文学研究领域,Persian poems corpus数据集被广泛用于分析和研究波斯诗歌的语言特征与文学价值。该数据集包含48位诗人作品,跨越了从公元前10世纪至今的历史时期,为学者提供了丰富的文本资源,以便于进行文本挖掘、风格分析以及诗歌鉴赏等研究。
实际应用
在实际应用中,Persian poems corpus数据集不仅服务于学术研究,还被应用于波斯语言教学、波斯文化遗产的数字化保存与传播等领域,有助于提升公众对波斯文化的认识和理解。
衍生相关工作
基于Persian poems corpus数据集,衍生出了一系列相关研究工作,包括诗人风格对比分析、诗歌情感分类研究、历史时期文学特点的演变研究等,这些工作进一步拓宽了波斯文学研究的视野,丰富了研究手段和方法。
以上内容由遇见数据集搜集并总结生成



