Persian poems corpus
收藏github2024-05-24 更新2024-05-31 收录
下载链接:
https://github.com/amnghd/Persian_poems_corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了48位波斯诗人的诗歌文档,分为原始文档、规范化文档和去除停用词的文档三个部分。这些文档是从网站ganjoor上抓取的,经过清洗和准备,适用于NLP任务。
This dataset comprises poetic documents from 48 Persian poets, categorized into three segments: original documents, normalized documents, and documents with stop words removed. These documents were scraped from the website ganjoor, meticulously cleaned and prepared, making them suitable for NLP tasks.
创建时间:
2019-01-21
原始信息汇总
波斯诗歌语料库概述
数据集结构
- 文档数量:48个文档,每个文档对应一位诗人。
- 文件夹结构:数据集包含三个文件夹,每个文件夹中包含所有48位诗人的文档。
- original:包含从ganjoor网站爬取的原始文档。
- normalized:包含经过字母规范化处理的文档,移除了网页爬取过程中不必要的字母,并替换了一些阿拉伯字母为对应的波斯字母。
- Stop words removed:包含移除了停用词的文档。
诗人列表
数据集涵盖了从公元前10世纪到现代的48位波斯诗人,每位诗人的信息包括其姓名、文件夹中的名称、以及指向其维基百科页面的链接。以下是部分诗人的示例:
| 诗人姓名 | 文件夹中的名称 | 维基百科链接 | 波斯语名称 |
|---|---|---|---|
| Abu Said Abul Kheayr | abusaeed.txt | here | ابوسعید ابوالخیر |
| Amir Muizzi | amir.txt | here | امیرمعزی |
| Awhad ad Din Anvari | anvari.txt | here | اوحد الدین انوری |
| Fakkhruddin Asad Gurgani | asad.txt | here | فخرادلین اسعد گرگانی |
| Asadi Tusi | asadi.txt | here | اسدی توسی |
| Attar of Nishapur | attar.txt | here | عطار نیشابوری |
| Afdal al-Din Kashani | babaafzal.txt | here | افضل الدین کاشانی |
| Bahaidin Amili | bahaee.txt | here | شیخ بهایی |
| Mohammad Taqi Bahar | bahar.txt | here | ملک اشعرای بهار |
| Abdul Qadir Bedil | bidel.txt | here | بیدل دهلوی |
| Fakhr al Din Iraqi | eraghi.txt | here | فخرالدین عراقی |
| Farrokhi Yazdi | farrokhi.txt | here | فرخی یزدی |
| Ferdowsi | ferdosi.txt | here | فردوسی |
| Feyz Kashani | feyz.txt | here | فیض کاشانی |
| Qaani Shirazi | qaani.txt | here | قاآنی شیرازی |
| Abdul Qadir Gilani | gilani.txt | here | عبدالقادر گیلانی |
| Hafiz | hafez.txt | here | حافظ شیرازی |
| Hatef | hatef.txt | here | هاتف اصفهانی |
| Badridin Hilali | helali.txt | here | بدرالدین هلالی |
| Muhammad Iqbal | iqbal.txt | here | محد اقبال لاهوری |
| Jami | jami.txt | here | جامی |
| Kamal od-Din Esmail | kamal.txt | here | کمال الدین اسماعیل |
| Khaqani | khaghani.txt | here | خاقانی |
| Khwaju Kermani | Khajoo.txt | here | خاجوی کرمانی |
| Omar Khayyam | khayyam.txt | here | عمر خیام |
| Amir Khusrow | khosro.txt | here | امیر خسرو |
| Manuchehri | manoochehri.txt | here | منوچهری دامغانی |
| Rumi | moulavi.txt | here | مولانا |
| Nasir Khusraw | naserkhosro.txt | here | ناصرخسرو |
| Nizari Quhistani | nezari.txt | here | نزاری قهستانی |
| Ubayd Zakani | obeyd.txt | here | عبید زاکانی |
| Unsuri | onsori.txt | here | عنصری بلخی |
| Orfi Shirazi | orfi.txt | here | عرفی شیرازی |
| Awhadi Maraghai | ohadi.txt | here | اوحدی مراغه ای |
| Parvin Etesami | parvin.txt | here | پروین اعتصامی |
| Rahi Moayyeri | rahi.txt | here | رهی معیری |
| Raziuddin Artimani | razi.txt | here | رضی ادین آرتیمانی |
| Rudki | roodaki.txt | here | رودکی |
| Saadi Sharizai | sadi.txt | here | سعدی شیرازی |
| Saib Tabrizi | saeb.txt | here | صائب تبریزی |
| Masoud Sad Salman | salman.txt | here | مسعود سعد سلمان |
| Sanai | sanaee.txt | here | سنایی غزنوی |
| Saif Farghani | seyf.txt | here | صیف فرغانی |
| Mahmoud Shabestari | shabestari.txt | here | محمود شبستری |
| Shah Nimatullah Wali | shahnematollah.txt | here | شاه نعمت الله ولی |
| Shahriar | shahriar.txt | here | شهریار |
| Vahshi Bafqi | vahshi.txt | here | وحشی بافقی |
| Zahir ad Din Faryabi | zahir.txt | here | ظهیرالدین فاریابی |
以上信息提供了波斯诗歌语料库的基本结构和内容概览,包括诗人的详细列表及其相关文档的处理状态。
搜集汇总
数据集介绍

构建方式
该数据集通过网络爬虫技术从[ganjoor](www.ganjoor.com)网站上获取原始波斯诗歌文档,共计48位诗人的作品。原始文档经过标准化处理,移除了不必要的字母,并替换了阿拉伯字母为相应的波斯字母。进一步地,数据集还移除了停用词,以提供更为纯净的文本数据。
特点
该数据集涵盖了从10世纪到现代的48位波斯诗人的作品,时间跨度极大,具有丰富的历史和文化价值。数据集分为三个文件夹:原始文档、标准化文档和移除停用词的文档,提供了不同处理阶段的文本,便于研究者根据需求选择使用。
使用方法
研究者可以通过下载该数据集的三个文件夹,分别获取原始、标准化和移除停用词的波斯诗歌文本。这些文本可用于语言学研究、文学分析、机器翻译训练等多种应用场景。使用时,建议根据具体研究目的选择合适的文本处理阶段。
背景与挑战
背景概述
波斯诗歌语料库(Persian poems corpus)是一个汇集了48位波斯诗人的作品的数据集,这些诗人跨越了从公元前10世纪到当代的时间段。该数据集由主要研究人员或机构通过网络爬虫从[ganjoor](www.ganjoor.com)网站收集原始文档,并进行了字母规范化处理,移除了不必要的字母和阿拉伯语替换,最终去除了停用词。这一数据集的创建旨在为波斯文学研究提供丰富的文本资源,支持自然语言处理和文学分析等领域的研究。
当前挑战
波斯诗歌语料库在构建过程中面临了多个挑战。首先,原始文档的网络爬虫收集过程需要处理大量的非标准化文本,包括不必要的字母和阿拉伯语替换。其次,字母规范化处理和停用词的移除需要精确的算法和语言知识,以确保文本的准确性和一致性。此外,该数据集涵盖了跨越千年的诗人作品,如何确保这些不同历史时期的文本在处理后仍能保持其文学和历史价值,也是一个重要的挑战。
常用场景
经典使用场景
波斯诗歌语料库(Persian poems corpus)的经典使用场景主要集中在波斯文学研究、语言学分析以及自然语言处理(NLP)领域。研究者可以利用该语料库进行波斯诗歌的文本分析,包括韵律研究、风格比较和主题分析。此外,该数据集还可用于开发和测试波斯语的自然语言处理模型,如文本分类、情感分析和机器翻译等。
解决学术问题
波斯诗歌语料库解决了波斯文学和语言学研究中的多个学术问题。首先,它为学者提供了丰富的文本资源,有助于深入研究波斯诗歌的历史演变和文学风格。其次,通过标准化和去除停用词的处理,该数据集为语言学研究提供了高质量的语料,有助于波斯语的语言特征分析和语法研究。此外,该语料库还为NLP领域的研究提供了宝贵的数据支持,推动了波斯语自然语言处理技术的发展。
衍生相关工作
波斯诗歌语料库的发布催生了多项相关研究工作。首先,许多学者基于该语料库进行了波斯诗歌的文本挖掘和情感分析研究,揭示了诗歌中的情感表达模式。其次,该数据集为波斯语的自然语言处理研究提供了基础,推动了波斯语机器翻译和文本生成技术的发展。此外,基于该语料库的研究还涉及波斯文学的历史演变和文化影响分析,为波斯文学研究提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



