Quranic Tafsir and Ahadith QA Dataset

Name: Quranic Tafsir and Ahadith QA Dataset
Creator: 国家科学与技术大学（NUST）
Published: 2024-09-16 03:50:00
License: 暂无描述

arXiv2024-09-16 更新2024-09-18 收录

下载链接：

http://arxiv.org/abs/2409.09844v1

下载链接

链接失效反馈

官方服务：

资源简介：

Quranic Tafsir and Ahadith QA Dataset是由国家科学与技术大学（NUST）精心创建的，专门用于非事实性问答系统在伊斯兰文本领域的应用。该数据集包含超过73,000个问答对，是目前该领域最大的数据集。数据集中的问题和答案都经过精心设计，包含了丰富的上下文信息，非常适合用于训练和评估问答系统。数据集的创建过程结合了自然语言处理和机器学习的最新进展，旨在解决在理解和解释古兰经和圣训时遇到的复杂问题。该数据集的应用领域主要集中在宗教文本的理解和问答系统的发展，旨在为全球穆斯林提供更准确和高效的宗教文本解读服务。

The Quranic Tafsir and Ahadith QA Dataset was meticulously created by the National University of Sciences and Technology (NUST), specifically tailored for non-factoid question answering systems in the domain of Islamic texts. This dataset contains over 73,000 question-answer pairs, making it the largest available dataset in this field to date. Both the questions and answers in the dataset are carefully crafted with rich contextual information, rendering them highly suitable for training and evaluating question answering systems. The development of this dataset incorporates the latest advancements in natural language processing (NLP) and machine learning (ML), aiming to address the complex challenges inherent in understanding and interpreting the Quran and Ahadith. The primary application domains of this dataset focus on religious text understanding and the development of question answering systems, with the goal of providing more accurate and efficient religious text interpretation services for Muslims across the globe.

提供机构：

国家科学与技术大学（NUST）

创建时间：

2024-09-16

搜集汇总

数据集介绍

构建方式

该数据集精心构建，旨在解决伊斯兰文本领域中的非事实性问答问题。通过整合来自Islamqa.org的超过90,000个问答对，以及Al-Tafsir.com和Sahah-e-Sittah的权威翻译，数据集确保了内容的多样性和真实性。数据处理步骤包括数据清洗、主题建模（使用LDA）和格式化，以确保与预训练模型的兼容性。最终，数据集包含超过73,000个问答对，每个问答对都附有丰富的上下文信息，为训练和评估定制的问答系统提供了宝贵的资源。

特点

该数据集的显著特点在于其规模和内容的丰富性。作为伊斯兰文本领域中最大的长篇问答数据集，它包含了超过73,000个问答对，每个问答对都附有详细的上下文信息。这些上下文信息来源于古兰经的注释（Tafsir）和圣训（Ahadith），为模型提供了深入理解问题和生成准确答案的基础。此外，数据集的构建过程中采用了主题建模技术，有效减少了搜索空间，提高了系统的效率。

使用方法

该数据集适用于训练和评估针对伊斯兰文本的问答系统。研究人员可以使用预训练的序列到序列模型（如T5、BART、LED和LongT5）进行微调，以生成准确和相关的答案。数据集的结构包括问题、答案和上下文三部分，使得模型能够在生成答案时参考相关的古兰经注释和圣训。通过使用ROUGE和BERTScore等评估指标，研究人员可以全面评估模型的性能，并结合人类评估来确保答案的准确性和一致性。

背景与挑战

背景概述

在当今数字化时代，访问和理解宗教文本，特别是《古兰经》（伊斯兰教的神圣经典）和《圣训》（先知穆罕默德的言行记录），需要高效且准确的问答系统。然而，针对《古兰经注释》（对《古兰经》的解释、解读和背景）和《圣训》的详细性质的问答系统仍然稀缺，这带来了显著的挑战。为了填补这一空白，我们精心制作了一个全面的数据集，专门用于《古兰经注释》和《圣训》领域的问答。该数据集包含超过73,000个问答对，是目前该专业领域中最大的报告数据集。重要的是，数据集中的问题和答案都经过精心丰富了上下文信息，为训练和评估定制的问答系统提供了宝贵的资源。

当前挑战

构建《古兰经注释》和《圣训》问答数据集面临多个挑战。首先，缺乏适用于该领域的数据集是一个主要问题。其次，需要一个适当的问答分类系统来准确提取不同来源的事实，同时考虑到用户提供的上下文来推断答案。此外，缺乏适合评估这些敏感系统的评估技术，因为在这个领域中精确性至关重要。最后，自动评估指标（如ROUGE分数）与人类评估之间存在显著差异，这表明需要能够捕捉宗教文本复杂性的评估技术，超越传统自动指标的局限。

常用场景

经典使用场景

Quranic Tafsir and Ahadith QA Dataset 最经典的使用场景在于为伊斯兰教文本的非事实性问答系统提供丰富的数据支持。该数据集包含超过73,000个问题与答案对，且每个问题和答案都附有详尽的上下文信息，这使得研究人员能够训练和评估专门针对古兰经注释和圣训的问答系统。通过利用这些数据，研究者可以开发出能够准确理解并回答关于伊斯兰教义复杂问题的系统，从而在宗教教育和研究领域发挥重要作用。

衍生相关工作

基于 Quranic Tafsir and Ahadith QA Dataset，研究者们已经开展了一系列相关工作，包括开发基于知识图谱的问答系统、利用深度学习技术进行文本理解和生成，以及探索多语言问答系统的可能性。这些工作不仅提升了问答系统的准确性和效率，还促进了跨文化、跨语言的宗教文本理解研究。未来，随着数据集的进一步丰富和评估方法的改进，预计将有更多创新性的应用和研究涌现。

数据集最近研究