five

Quran QA 2023

收藏
arXiv2024-12-16 更新2024-12-25 收录
下载链接:
http://arxiv.org/abs/2412.11431v1
下载链接
链接失效反馈
官方服务:
资源简介:
Quran QA 2023数据集由MSA大学的计算机科学学院创建,旨在提高古兰经问答系统的准确性。该数据集从最初的251个问题扩展到1895个问题,涵盖单答案、多答案和零答案类型,以增强模型的多样性和鲁棒性。数据集的创建过程包括问题重述和分类,确保了数据的高质量和多样性。该数据集主要应用于古兰经问答系统,旨在解决现代标准阿拉伯语与古典阿拉伯语之间的语言差距,提升问答系统的准确性和召回率。

Quran QA 2023 dataset was developed by the School of Computer Science at MSA University to improve the accuracy of Quran question answering systems. The dataset has been expanded from an initial 251 questions to 1,895 questions, covering single-answer, multi-answer, and no-answer question types to enhance model diversity and robustness. The dataset creation process involves question paraphrasing and classification, ensuring high data quality and diversity. This dataset is primarily utilized for Quran question answering systems, aiming to bridge the linguistic gap between Modern Standard Arabic (MSA) and Classical Arabic, and improve the accuracy and recall of such question answering systems.
提供机构:
计算机科学学院,MSA大学,埃及
创建时间:
2024-12-16
搜集汇总
数据集介绍
main_image_url
构建方式
Quran QA 2023数据集的构建过程基于对原有251个问题的扩展和优化。通过重新表述和分类,数据集被扩充至629个问题,并进一步生成1895个问题,涵盖了单答案、多答案和无答案三种类型。数据来源包括Quran QA 2022数据集、Kaggle数据集、Tafseer书籍以及Hugging Face平台上的相关资源。数据清洗过程中,去除了重复问题,并对文本进行了标准化处理,确保问题以现代标准阿拉伯语(MSA)呈现,而古兰经节则以古典阿拉伯语呈现。
特点
Quran QA 2023数据集的特点在于其多样性和复杂性。数据集不仅涵盖了广泛的古兰经相关问题,还通过问题重新表述和分类,增强了模型的泛化能力。数据集中的问题被细分为单答案、多答案和无答案三种类型,这为模型处理不同类型的查询提供了丰富的训练样本。此外,数据集的扩展显著提升了模型在无答案情况下的处理能力,成功率达到75%,较基线提升了50%。
使用方法
Quran QA 2023数据集的使用方法主要围绕预训练语言模型的微调展开。研究人员对多个Transformer模型(如AraBERT、RoBERTa、CAMeLBERT、AraELECTRA和BERT)进行了微调,以提升其在古兰经问答任务中的表现。微调过程中,模型在扩展后的1895个问题上进行了训练,并通过实验验证了其在平均精度(MAP@10)和平均倒数排名(MRR)等指标上的显著提升。此外,模型还采用了集成学习和阈值机制,以进一步提高答案的准确性和鲁棒性,特别是在处理无答案问题时表现出色。
背景与挑战
背景概述
Quran QA 2023数据集由埃及MSA大学计算机科学学院的Mohamed Basem、Islam Oshallah、Baraa Hikal、Ali Hamdi和Ammar Mohamed等研究人员于2023年创建,旨在提升《古兰经》问答系统的准确性和效率。该数据集的核心研究问题在于解决现代标准阿拉伯语与古典阿拉伯语之间的语言鸿沟,并通过扩展数据集和优化语言模型来提高问答系统的性能。原始数据集包含251个问题,经过扩展和重构后,最终形成了包含1895个问题的多样化数据集,涵盖了单答案、多答案和无答案三种类型。通过微调多种Transformer模型,如AraBERT、RoBERTa、CAMeLBERT、AraELECTRA和BERT,研究团队显著提升了模型的检索准确性和处理无答案问题的能力。这一成果不仅推动了《古兰经》问答系统的发展,也为阿拉伯语自然语言处理领域提供了重要的研究资源。
当前挑战
Quran QA 2023数据集面临的挑战主要集中在两个方面。首先,在领域问题方面,古典阿拉伯语的复杂性和《古兰经》文本的语义深度使得问答系统难以准确理解和检索相关经文。尽管现代标准阿拉伯语与古典阿拉伯语之间存在一定的相似性,但词汇、语法和语境上的差异仍然对模型的性能提出了严峻挑战。其次,在数据集构建过程中,研究人员需要克服数据稀缺性和多样性的问题。原始数据集规模较小,且问题类型单一,难以覆盖《古兰经》问答系统中的所有场景。通过问题重构和多样化扩展,研究人员成功将数据集规模扩大至1895个问题,但仍需进一步优化数据质量和模型架构,以应对更复杂的语言和语境挑战。此外,如何有效处理无答案问题也是该数据集构建中的一大难点,需要通过更精细的模型设计和数据标注策略来提升系统的鲁棒性。
常用场景
经典使用场景
Quran QA 2023数据集在伊斯兰教经典《古兰经》的问答系统中具有重要应用。该数据集通过扩展和优化,提供了丰富的问答对,涵盖了单答案、多答案和无答案等多种类型,使得模型能够更准确地理解和检索《古兰经》中的相关经文。经典使用场景包括通过现代标准阿拉伯语(MSA)提问,系统能够从古典阿拉伯语的《古兰经》文本中检索出精确的答案,帮助用户更好地理解经文内容。
衍生相关工作
Quran QA 2023数据集的扩展和优化催生了一系列相关研究工作。例如,基于该数据集的AraBERT模型在《古兰经》问答任务中表现出色,显著提升了检索准确性和语义理解能力。此外,CAMeLBERT和AraELECTRA等模型也在该数据集上进行了微调,进一步推动了阿拉伯语NLP领域的发展。这些工作不仅提升了《古兰经》问答系统的性能,还为其他低资源语言的问答系统提供了新的研究思路和方法。
数据集最近研究
最新研究方向
在《古兰经》问答系统领域,Quran QA 2023数据集的最新研究方向聚焦于通过数据集扩展和语言模型微调来提升问答系统的准确性和鲁棒性。随着全球穆斯林人口的增加,对理解《古兰经》的需求日益增长,传统的问答系统在处理古典阿拉伯语与现代标准阿拉伯语之间的语言差异时面临挑战。为此,研究者通过将原始数据集从251个问题扩展至1895个问题,并引入多样化的问答类型(单答案、多答案和无答案),显著提升了模型的泛化能力。在此基础上,研究者对多种预训练语言模型(如AraBERT、RoBERTa、CAMeLBERT等)进行了微调,其中AraBERT-base模型在MAP@10和MRR指标上分别提升了63%和59%。此外,针对无答案问题的处理能力也得到了显著改善,成功率达到75%。这些成果不仅推动了《古兰经》问答系统的技术进步,也为跨语言理解和宗教文本的智能化处理提供了重要参考。
相关研究论文
  • 1
    Optimized Quran Passage Retrieval Using an Expanded QA Dataset and Fine-Tuned Language Models计算机科学学院,MSA大学,埃及 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作