NAH-Hadith-Corpus

github2021-03-26 更新2024-05-31 收录

下载链接：

https://github.com/TaghreedT/NAH-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含452,624个阿拉伯语圣训词汇的语料库，来源于不同的非主流圣训书籍。数据集包含多种注释的圣训书籍，有助于确定圣训的来源、内容和评论，提供真实依据。部分书籍包含真实和非真实的圣训，而其他则仅包含非真实圣训。数据集详细记录了每条圣训的八个主要特征，包括编号、完整圣训、叙述者链、先知行为、作者评论、圣训类型、真实性和主题。

This is a corpus containing 452,624 Arabic Hadith terms, sourced from various non-mainstream Hadith books. The dataset includes multiple annotated Hadith books, which are instrumental in determining the origin, content, and commentary of the Hadiths, providing authentic references. Some books contain both authentic and inauthentic Hadiths, while others include only inauthentic ones. The dataset meticulously records eight main characteristics of each Hadith, including its serial number, the complete Hadith, the chain of narrators, the Prophet's actions, author's commentary, type of Hadith, authenticity, and subject matter.

创建时间：

2021-03-25

原始信息汇总

NAH-Hadith-Corpus 概述

数据集描述

语言: 阿拉伯语
内容: 包含452,624个单词，来自不同知名度较低的Hadith书籍。
特点:
- 包含多种注释的Hadith书籍，有助于确定Isnad、Matan和评论之间的转换点，提供基础事实。
- 部分书籍包含真实和非真实的Hadith，其他则仅包含非真实的Hadith。

数据集结构

文件: NAH_Contents.csv 包含此语料库中所有Hadith书籍的列表。
注释特征:
1. 编号: Hadith的参考编号。
2. 完整Hadith: 书籍中未注释的Hadith文本。
3. Isnad: 叙述者的链条。
4. Matan: 先知穆罕默德的行为。
5. 作者评论: 作者描述每个Hadith的真实性。
6. Hadith类型: 包括Maqtu`、Mawquf和Marfoʻ等类型或Hadith等级。
7. 真实性: Hadith是否真实。
8. 主题: 章节标题。

引用信息

论文: Tarmom T, Atwell E, Alsalka MA. 2020. Non-authentic Hadith Corpus: Design and Methodology. International Journal on Islamic Applications in Computer Science And Technology. 13-19 8.3
链接: 论文链接

搜集汇总

数据集介绍

构建方式

NAH-Hadith-Corpus数据集的构建基于对多部较少为人熟知的圣训书籍的深度挖掘与整理。该数据集涵盖了452,624个阿拉伯语词汇，并特别收录了多部经过注释的圣训书籍。这些注释旨在明确区分圣训的传述链（Isnad）、正文（Matan）以及作者评论，从而为研究提供准确的基础数据。部分书籍同时包含真实与非真实的圣训，而其他书籍则仅收录非真实圣训。

特点

NAH-Hadith-Corpus数据集的特点在于其详尽的注释与分类。每一条圣训均标注了八个主要特征，包括圣训编号、完整圣训文本、传述链、正文、作者评论、圣训类型、真实性以及主题章节。这些特征不仅为研究者提供了丰富的分析维度，还通过标注圣训的真实性（如真实、非真实）及其类型（如Maqtu`、Mawquf、Marfoʻ），为圣训学研究提供了重要的参考依据。

使用方法

使用NAH-Hadith-Corpus数据集时，研究者可通过NAH_Contents.csv文件快速定位所需的圣训书籍。数据集中的注释信息为分析圣训的传述链、正文及作者评论提供了清晰的指引。此外，研究者可根据圣训的真实性、类型及主题进行分类研究，或结合标注的八项特征进行多维度分析。使用该数据集时，需引用相关论文以尊重其学术贡献。

背景与挑战

背景概述

NAH-Hadith-Corpus数据集由Tarmom T、Atwell E和Alsalka MA等研究人员于2020年创建，旨在为非真实圣训（Non-authentic Hadith, NAH）的研究提供数据支持。该数据集包含来自不同较少知名圣训书籍的452,624个词汇，并涵盖了多本注释圣训书籍，这些注释帮助确定了圣训的传述链（Isnad）、正文（Matan）和评论之间的转换点，为研究提供了基础数据。该数据集的创建不仅填补了圣训研究领域的数据空白，还为伊斯兰计算机科学与技术应用领域的研究提供了重要资源。

当前挑战

NAH-Hadith-Corpus数据集在构建过程中面临多重挑战。首先，圣训文本的复杂性和多样性使得注释工作极具挑战性，特别是需要准确区分传述链、正文和评论部分。其次，确定圣训的真实性（Authenticity）和类型（Hadith Type）需要深厚的宗教学识，这对标注人员的专业能力提出了较高要求。此外，数据集的构建还需处理大量非结构化文本数据，这对数据清洗和标准化提出了技术挑战。这些挑战不仅体现在数据集的构建过程中，也反映了圣训研究领域在文本分析和分类任务上的复杂性。

常用场景

经典使用场景

NAH-Hadith-Corpus数据集在伊斯兰教圣训研究中扮演着关键角色，特别是在非真实圣训的分析和分类方面。研究者利用该数据集中的大量标注信息，能够深入探讨圣训的传述链（Isnad）和内容（Matan）之间的关系，以及作者对圣训真实性的评论。这些信息为理解圣训的传播和接受提供了宝贵的资料。

解决学术问题

该数据集解决了伊斯兰教圣训研究中的一个核心问题，即如何有效区分真实与非真实圣训。通过提供详细的标注信息，如圣训类型、真实性和主题分类，研究者能够系统地分析圣训的文本特征和历史背景，从而在圣训的真实性鉴定和分类研究中取得重要进展。

衍生相关工作

基于NAH-Hadith-Corpus数据集，已经衍生出多项经典研究工作，包括圣训文本的自动分类算法、圣训真实性的机器学习模型，以及圣训传播路径的可视化工具。这些研究不仅推动了圣训研究的数字化进程，还为相关领域的学者提供了新的研究方法和视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集