five

Quran NLP

收藏
github2024-04-09 更新2024-05-31 收录
下载链接:
https://github.com/islamAndAi/QURAN-NLP
下载链接
链接失效反馈
官方服务:
资源简介:
包含古兰经、圣训、翻译、注释、语料库语言学等数据集,用于自然语言处理和人工智能研究。

This dataset encompasses collections related to the Quran, Hadith, translations, commentaries, and corpus linguistics, designed for research in natural language processing and artificial intelligence.
创建时间:
2022-02-21
原始信息汇总

数据集概述

数据集结构

主要数据集

  • quran
    • corpus
      • dictionary (53,924)
      • morphology (128,219)
      • verbs (1,475)
      • lemmas (3,680)
      • lemmas (grouped) (3,357)
    • quran.csv (6,236)
  • hadith
    • Sanadset (650,000 hadith)
    • arabichadith (62,169 hadith)
    • thaqalayn (26,975 hadith)
    • kaggle_hadith_clean.csv (34,410 hadith)
    • kaggle_rawis.csv (24,028 rawis)
  • namesofallah (99)
  • surah (114)
  • tafseer (4 * 6,236)
  • translation (9 * 6,236)
  • main_df.csv (6,236)

辅助数据集

  • data
    • hadith
      • Sanadset (650,000 hadith)
      • arabichadith (62,169 hadith)
      • thaqalayn (26,975 hadith)
      • kaggle_hadith_clean.csv (34,410 hadith)
      • kaggle_rawis.csv (24,028 rawis)

数据集内容

  • quran 数据集包含多个子集,如字典、形态学、动词和词根等。
  • hadith 数据集包含多种圣训,如Sanadset、arabichadith、thaqalayn等。
  • namesofallah 包含99个阿拉的名字。
  • surah 包含114个章节。
  • tafseertranslation 分别包含对古兰经的解释和翻译。

数据集用途

  • 用于NLP和AI研究,特别是针对古兰经的语言分析。
  • 支持创建搜索引擎、情感分析、文本摘要等功能。

数据集来源

  • 数据集部分内容通过网络爬虫从特定网站收集,如altafsir.com和thaqalayn.net。
  • 部分数据集内容可在Kaggle上下载。

数据集更新

  • 项目开始于2023年3月1日,持续更新中。

贡献方式

  • 欢迎通过添加更多数据、验证现有数据的真实性和准确性等方式进行贡献。
搜集汇总
数据集介绍
main_image_url
构建方式
Quran NLP数据集的构建基于对《古兰经》及其相关文本的深入分析与处理。数据集通过网络爬虫技术从多个权威网站如https://www.altafsir.com/和https://thaqalayn.net/等获取原始数据,并进一步处理成结构化的CSV格式。此外,数据集还包含了通过自然语言处理技术提取的关键信息,如词频统计、情感分析、文本摘要等,以及通过Google USE(Universal Sentence Encoder)实现的搜索引擎功能。这些数据经过精细的分类和整理,形成了包括《古兰经》文本、注释、翻译、词典、动词形态等多个子集,为后续的NLP研究和应用提供了丰富的资源。
使用方法
Quran NLP数据集的使用方法灵活多样,适用于多种NLP任务。研究者可以直接加载CSV格式的数据进行分析,或利用提供的Notebook进行数据探索和处理。数据集支持的NLP任务包括但不限于文本分类、情感分析、文本摘要、搜索和相似度计算。此外,数据集还提供了预处理的数据和模型,如Google USE,便于快速实现高级功能。研究者还可以通过Kaggle平台在线访问和处理数据,进一步简化了数据的使用流程。
背景与挑战
背景概述
Quran NLP数据集是由一位研究人员于2023年3月发起的开源项目,旨在将自然语言处理(NLP)与人工智能(AI)技术应用于《古兰经》研究。该数据集的核心研究问题是如何利用NLP技术对《古兰经》进行文本分析、情感分析、文本摘要以及构建搜索引擎。通过提供《古兰经》的多种语言翻译、注释、词典、动词形态等详细数据,该数据集为伊斯兰研究领域提供了丰富的资源,推动了NLP技术在宗教文本分析中的应用。
当前挑战
Quran NLP数据集在构建过程中面临多项挑战。首先,数据来源的多样性和复杂性使得数据清洗和整合成为一项艰巨任务。其次,《古兰经》的语言特性,尤其是阿拉伯语的语法和形态结构,对NLP模型的训练提出了高要求。此外,如何确保翻译和注释的准确性,以及如何构建一个高效且准确的搜索引擎,也是该数据集面临的重要挑战。未来,进一步扩展数据集、提升NLP模型的性能以及开发更全面的伊斯兰知识图谱,将是该数据集发展的关键方向。
常用场景
经典使用场景
Quran NLP数据集的经典使用场景主要集中在自然语言处理(NLP)和人工智能(AI)领域,尤其是在对《古兰经》文本的深入分析上。研究者可以利用该数据集进行情感分析、文本摘要、词频统计以及翻译与注释的相似性分析。例如,通过分析《古兰经》各章节的情感倾向,研究者可以探讨宗教文本的情感表达模式;通过文本摘要技术,可以快速获取《古兰经》章节的主题内容;通过词频统计,可以揭示《古兰经》中最常用的词汇及其语义分布。
解决学术问题
Quran NLP数据集为学术界提供了一个丰富的资源,解决了多个重要的研究问题。首先,它为宗教文本的情感分析提供了基础数据,帮助研究者理解宗教文本的情感表达模式。其次,通过提供详细的词典、词形变化和词根信息,该数据集支持对《古兰经》语言学的深入研究,促进了语言学与宗教研究的交叉学科发展。此外,该数据集还为翻译与注释的相似性分析提供了数据支持,有助于提高翻译质量和注释的准确性。
实际应用
Quran NLP数据集在实际应用中具有广泛的潜力。例如,它可以用于开发智能搜索工具,帮助用户快速查找《古兰经》中的特定内容,提升宗教文本的检索效率。此外,该数据集还可以用于构建情感分析工具,帮助宗教领袖或学者分析《古兰经》文本的情感倾向,从而更好地理解其教义。在教育领域,该数据集可以用于开发教学辅助工具,帮助学生更高效地学习《古兰经》及其注释。
数据集最近研究
最新研究方向
在自然语言处理(NLP)与人工智能(AI)的交叉领域,Quran NLP数据集的研究正聚焦于深度挖掘伊斯兰文本的语义与情感分析。该数据集不仅包含了古兰经的多种语言翻译、注释及形态学信息,还涵盖了大量圣训文本,为研究者提供了丰富的资源以探索宗教文本的复杂结构与深层含义。当前的研究热点包括利用先进的NLP技术,如文本摘要、情感分析和语义相似度计算,来解析古兰经及其注释的内在逻辑。此外,构建能够理解并处理阿拉伯语的NLP模型,尤其是针对古兰经的专用模型,已成为该领域的关键挑战。这些研究不仅有助于提升宗教文本的数字化处理能力,还为跨文化交流与理解提供了新的工具和视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作