five

Persian poems corpus

收藏
github2024-05-24 更新2024-05-31 收录
下载链接:
https://github.com/amnghd/Persian_poems_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了48位波斯诗人的诗歌文档,分为原始文档、规范化文档和去除停用词的文档三个部分。这些文档是从网站ganjoor上抓取的,经过清洗和准备,适用于NLP任务。

This dataset comprises poetic documents from 48 Persian poets, categorized into three segments: original documents, normalized documents, and documents with stop words removed. These documents were scraped from the website ganjoor, meticulously cleaned and prepared, making them suitable for NLP tasks.
创建时间:
2019-01-21
原始信息汇总

波斯诗歌语料库概述

数据集结构

  • 文档数量:48个文档,每个文档对应一位诗人。
  • 文件夹结构:数据集包含三个文件夹,每个文件夹中包含所有48位诗人的文档。
    • original:包含从ganjoor网站爬取的原始文档。
    • normalized:包含经过字母规范化处理的文档,移除了网页爬取过程中不必要的字母,并替换了一些阿拉伯字母为对应的波斯字母。
    • Stop words removed:包含移除了停用词的文档。

诗人列表

数据集涵盖了从公元前10世纪到现代的48位波斯诗人,每位诗人的信息包括其姓名、文件夹中的名称、以及指向其维基百科页面的链接。以下是部分诗人的示例:

诗人姓名 文件夹中的名称 维基百科链接 波斯语名称
Abu Said Abul Kheayr abusaeed.txt here ابوسعید ابوالخیر
Amir Muizzi amir.txt here امیرمعزی
Awhad ad Din Anvari anvari.txt here اوحد الدین انوری
Fakkhruddin Asad Gurgani asad.txt here فخرادلین اسعد گرگانی
Asadi Tusi asadi.txt here اسدی توسی
Attar of Nishapur attar.txt here عطار نیشابوری
Afdal al-Din Kashani babaafzal.txt here افضل الدین کاشانی
Bahaidin Amili bahaee.txt here شیخ بهایی
Mohammad Taqi Bahar bahar.txt here ملک اشعرای بهار
Abdul Qadir Bedil bidel.txt here بیدل دهلوی
Fakhr al Din Iraqi eraghi.txt here فخرالدین عراقی
Farrokhi Yazdi farrokhi.txt here فرخی یزدی
Ferdowsi ferdosi.txt here فردوسی
Feyz Kashani feyz.txt here فیض کاشانی
Qaani Shirazi qaani.txt here قاآنی شیرازی
Abdul Qadir Gilani gilani.txt here عبدالقادر گیلانی
Hafiz hafez.txt here حافظ شیرازی
Hatef hatef.txt here هاتف اصفهانی
Badridin Hilali helali.txt here بدرالدین هلالی
Muhammad Iqbal iqbal.txt here محد اقبال لاهوری
Jami jami.txt here جامی
Kamal od-Din Esmail kamal.txt here کمال الدین اسماعیل
Khaqani khaghani.txt here خاقانی
Khwaju Kermani Khajoo.txt here خاجوی کرمانی
Omar Khayyam khayyam.txt here عمر خیام
Amir Khusrow khosro.txt here امیر خسرو
Manuchehri manoochehri.txt here منوچهری دامغانی
Rumi moulavi.txt here مولانا
Nasir Khusraw naserkhosro.txt here ناصرخسرو
Nizari Quhistani nezari.txt here نزاری قهستانی
Ubayd Zakani obeyd.txt here عبید زاکانی
Unsuri onsori.txt here عنصری بلخی
Orfi Shirazi orfi.txt here عرفی شیرازی
Awhadi Maraghai ohadi.txt here اوحدی مراغه ای
Parvin Etesami parvin.txt here پروین اعتصامی
Rahi Moayyeri rahi.txt here رهی معیری
Raziuddin Artimani razi.txt here رضی ادین آرتیمانی
Rudki roodaki.txt here رودکی
Saadi Sharizai sadi.txt here سعدی شیرازی
Saib Tabrizi saeb.txt here صائب تبریزی
Masoud Sad Salman salman.txt here مسعود سعد سلمان
Sanai sanaee.txt here سنایی غزنوی
Saif Farghani seyf.txt here صیف فرغانی
Mahmoud Shabestari shabestari.txt here محمود شبستری
Shah Nimatullah Wali shahnematollah.txt here شاه نعمت الله ولی
Shahriar shahriar.txt here شهریار
Vahshi Bafqi vahshi.txt here وحشی بافقی
Zahir ad Din Faryabi zahir.txt here ظهیرالدین فاریابی

以上信息提供了波斯诗歌语料库的基本结构和内容概览,包括诗人的详细列表及其相关文档的处理状态。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过网络爬虫技术从[ganjoor](www.ganjoor.com)网站上获取原始波斯诗歌文档,共计48位诗人的作品。原始文档经过标准化处理,移除了不必要的字母,并替换了阿拉伯字母为相应的波斯字母。进一步地,数据集还移除了停用词,以提供更为纯净的文本数据。
特点
该数据集涵盖了从10世纪到现代的48位波斯诗人的作品,时间跨度极大,具有丰富的历史和文化价值。数据集分为三个文件夹:原始文档、标准化文档和移除停用词的文档,提供了不同处理阶段的文本,便于研究者根据需求选择使用。
使用方法
研究者可以通过下载该数据集的三个文件夹,分别获取原始、标准化和移除停用词的波斯诗歌文本。这些文本可用于语言学研究、文学分析、机器翻译训练等多种应用场景。使用时,建议根据具体研究目的选择合适的文本处理阶段。
背景与挑战
背景概述
波斯诗歌语料库(Persian poems corpus)是一个汇集了48位波斯诗人的作品的数据集,这些诗人跨越了从公元前10世纪到当代的时间段。该数据集由主要研究人员或机构通过网络爬虫从[ganjoor](www.ganjoor.com)网站收集原始文档,并进行了字母规范化处理,移除了不必要的字母和阿拉伯语替换,最终去除了停用词。这一数据集的创建旨在为波斯文学研究提供丰富的文本资源,支持自然语言处理和文学分析等领域的研究。
当前挑战
波斯诗歌语料库在构建过程中面临了多个挑战。首先,原始文档的网络爬虫收集过程需要处理大量的非标准化文本,包括不必要的字母和阿拉伯语替换。其次,字母规范化处理和停用词的移除需要精确的算法和语言知识,以确保文本的准确性和一致性。此外,该数据集涵盖了跨越千年的诗人作品,如何确保这些不同历史时期的文本在处理后仍能保持其文学和历史价值,也是一个重要的挑战。
常用场景
经典使用场景
波斯诗歌语料库(Persian poems corpus)的经典使用场景主要集中在波斯文学研究、语言学分析以及自然语言处理(NLP)领域。研究者可以利用该语料库进行波斯诗歌的文本分析,包括韵律研究、风格比较和主题分析。此外,该数据集还可用于开发和测试波斯语的自然语言处理模型,如文本分类、情感分析和机器翻译等。
解决学术问题
波斯诗歌语料库解决了波斯文学和语言学研究中的多个学术问题。首先,它为学者提供了丰富的文本资源,有助于深入研究波斯诗歌的历史演变和文学风格。其次,通过标准化和去除停用词的处理,该数据集为语言学研究提供了高质量的语料,有助于波斯语的语言特征分析和语法研究。此外,该语料库还为NLP领域的研究提供了宝贵的数据支持,推动了波斯语自然语言处理技术的发展。
衍生相关工作
波斯诗歌语料库的发布催生了多项相关研究工作。首先,许多学者基于该语料库进行了波斯诗歌的文本挖掘和情感分析研究,揭示了诗歌中的情感表达模式。其次,该数据集为波斯语的自然语言处理研究提供了基础,推动了波斯语机器翻译和文本生成技术的发展。此外,基于该语料库的研究还涉及波斯文学的历史演变和文化影响分析,为波斯文学研究提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作