Quran NLP

github2024-04-09 更新2024-05-31 收录

下载链接：

https://github.com/islamAndAi/QURAN-NLP

下载链接

链接失效反馈

官方服务：

资源简介：

包含古兰经、圣训、翻译、注释、语料库语言学等数据集，用于自然语言处理和人工智能研究。

This dataset encompasses collections related to the Quran, Hadith, translations, commentaries, and corpus linguistics, designed for research in natural language processing and artificial intelligence.

创建时间：

2022-02-21

原始信息汇总

数据集概述

数据集结构

主要数据集

quran
- corpus
  - dictionary (53,924)
  - morphology (128,219)
  - verbs (1,475)
  - lemmas (3,680)
  - lemmas (grouped) (3,357)
- quran.csv (6,236)
hadith
- Sanadset (650,000 hadith)
- arabichadith (62,169 hadith)
- thaqalayn (26,975 hadith)
- kaggle_hadith_clean.csv (34,410 hadith)
- kaggle_rawis.csv (24,028 rawis)
namesofallah (99)
surah (114)
tafseer (4 * 6,236)
translation (9 * 6,236)
main_df.csv (6,236)

辅助数据集

data
- hadith
  - Sanadset (650,000 hadith)
  - arabichadith (62,169 hadith)
  - thaqalayn (26,975 hadith)
  - kaggle_hadith_clean.csv (34,410 hadith)
  - kaggle_rawis.csv (24,028 rawis)

数据集内容

quran 数据集包含多个子集，如字典、形态学、动词和词根等。
hadith 数据集包含多种圣训，如Sanadset、arabichadith、thaqalayn等。
namesofallah 包含99个阿拉的名字。
surah 包含114个章节。
tafseer 和 translation 分别包含对古兰经的解释和翻译。

数据集用途

用于NLP和AI研究，特别是针对古兰经的语言分析。
支持创建搜索引擎、情感分析、文本摘要等功能。

数据集来源

数据集部分内容通过网络爬虫从特定网站收集，如altafsir.com和thaqalayn.net。
部分数据集内容可在Kaggle上下载。

数据集更新

项目开始于2023年3月1日，持续更新中。

贡献方式

欢迎通过添加更多数据、验证现有数据的真实性和准确性等方式进行贡献。

搜集汇总

数据集介绍

构建方式

Quran NLP数据集的构建基于对《古兰经》及其相关文本的深入分析与处理。数据集通过网络爬虫技术从多个权威网站如https://www.altafsir.com/和https://thaqalayn.net/等获取原始数据，并进一步处理成结构化的CSV格式。此外，数据集还包含了通过自然语言处理技术提取的关键信息，如词频统计、情感分析、文本摘要等，以及通过Google USE（Universal Sentence Encoder）实现的搜索引擎功能。这些数据经过精细的分类和整理，形成了包括《古兰经》文本、注释、翻译、词典、动词形态等多个子集，为后续的NLP研究和应用提供了丰富的资源。

使用方法

Quran NLP数据集的使用方法灵活多样，适用于多种NLP任务。研究者可以直接加载CSV格式的数据进行分析，或利用提供的Notebook进行数据探索和处理。数据集支持的NLP任务包括但不限于文本分类、情感分析、文本摘要、搜索和相似度计算。此外，数据集还提供了预处理的数据和模型，如Google USE，便于快速实现高级功能。研究者还可以通过Kaggle平台在线访问和处理数据，进一步简化了数据的使用流程。

背景与挑战

背景概述

Quran NLP数据集是由一位研究人员于2023年3月发起的开源项目，旨在将自然语言处理（NLP）与人工智能（AI）技术应用于《古兰经》研究。该数据集的核心研究问题是如何利用NLP技术对《古兰经》进行文本分析、情感分析、文本摘要以及构建搜索引擎。通过提供《古兰经》的多种语言翻译、注释、词典、动词形态等详细数据，该数据集为伊斯兰研究领域提供了丰富的资源，推动了NLP技术在宗教文本分析中的应用。

当前挑战

Quran NLP数据集在构建过程中面临多项挑战。首先，数据来源的多样性和复杂性使得数据清洗和整合成为一项艰巨任务。其次，《古兰经》的语言特性，尤其是阿拉伯语的语法和形态结构，对NLP模型的训练提出了高要求。此外，如何确保翻译和注释的准确性，以及如何构建一个高效且准确的搜索引擎，也是该数据集面临的重要挑战。未来，进一步扩展数据集、提升NLP模型的性能以及开发更全面的伊斯兰知识图谱，将是该数据集发展的关键方向。

常用场景

经典使用场景

Quran NLP数据集的经典使用场景主要集中在自然语言处理（NLP）和人工智能（AI）领域，尤其是在对《古兰经》文本的深入分析上。研究者可以利用该数据集进行情感分析、文本摘要、词频统计以及翻译与注释的相似性分析。例如，通过分析《古兰经》各章节的情感倾向，研究者可以探讨宗教文本的情感表达模式；通过文本摘要技术，可以快速获取《古兰经》章节的主题内容；通过词频统计，可以揭示《古兰经》中最常用的词汇及其语义分布。

解决学术问题

Quran NLP数据集为学术界提供了一个丰富的资源，解决了多个重要的研究问题。首先，它为宗教文本的情感分析提供了基础数据，帮助研究者理解宗教文本的情感表达模式。其次，通过提供详细的词典、词形变化和词根信息，该数据集支持对《古兰经》语言学的深入研究，促进了语言学与宗教研究的交叉学科发展。此外，该数据集还为翻译与注释的相似性分析提供了数据支持，有助于提高翻译质量和注释的准确性。

实际应用

Quran NLP数据集在实际应用中具有广泛的潜力。例如，它可以用于开发智能搜索工具，帮助用户快速查找《古兰经》中的特定内容，提升宗教文本的检索效率。此外，该数据集还可以用于构建情感分析工具，帮助宗教领袖或学者分析《古兰经》文本的情感倾向，从而更好地理解其教义。在教育领域，该数据集可以用于开发教学辅助工具，帮助学生更高效地学习《古兰经》及其注释。

数据集最近研究