QUQA

Name: QUQA
Creator: rttl实验室, 阿联酋
Published: 2025-01-17 21:17:42
License: 暂无描述

arXiv2025-01-17 更新2025-02-25 收录

下载链接：

https://github.com/scsaln/HAQA-and-QUQA

下载链接

链接失效反馈

官方服务：

资源简介：

QUQA数据集是由rttl实验室创建的基于《古兰经》的阿拉伯语问答数据集，旨在支持伊斯兰领域的神经检索任务。该数据集包含3382对问答对，经过数据增强后扩展到5385对，涵盖了阿拉伯语和英语的双语数据。数据集的内容主要来源于《古兰经》及其注释，通过Tafseer Ibn Katheer的经文关系生成高质量的领域内数据。该数据集的应用领域为伊斯兰文本的信息检索，旨在提高双语检索模型在伊斯兰文献中的表现，帮助学者和研究人员更高效地检索相关文献。

The QUQA dataset is an Arabic question-answering dataset based on the Quran, created by the RTTL Lab, aiming to support neural retrieval tasks in the Islamic domain. This dataset initially contains 3382 QA pairs, which are expanded to 5385 pairs via data augmentation, covering bilingual data in both Arabic and English. The content of the dataset mainly originates from the Quran and its commentaries, and high-quality in-domain data is generated based on the textual relationships outlined in Tafseer Ibn Katheer. The target application field of this dataset is information retrieval for Islamic texts, with the goal of improving the performance of bilingual retrieval models in Islamic literature and helping scholars and researchers retrieve relevant literature more efficiently.

提供机构：

rttl实验室, 阿联酋

创建时间：

2025-01-17

原始信息汇总

数据集概述

数据集名称

QUQA Version 1.0
HAQA Version 1.0

数据集描述

QUQA：针对《古兰经》的阿拉伯语问题回答测试集
HAQA：针对《圣训》的阿拉伯语问题回答测试集

发布日期

2023年4月5日

引用信息

@inproceedings{alnefaie2023haqa, title={HAQA and QUQA: Constructing Two Arabic Question-Answering Corpora for the Quran and Hadith}, author={Alnefaie, Sarah and Atwell, Eric and Alsalka, Mohammad Ammar}, booktitle={Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing}, pages={90--97}, year={2023} }

反馈与修正

如有关于数据集的修正或评论，请发送邮件至：scsaln@leeds.ac.uk

搜集汇总

数据集介绍

构建方式

QUQA数据集的构建方式主要涉及多阶段训练和领域适应。首先，研究团队利用XLM-RBase模型，通过语言缩减技术构建了一个轻量级的双语文本模型。其次，为了解决伊斯兰领域内数据分布不均的问题，他们采用多阶段训练方法，结合了大型检索数据集MS MARCO和较小的领域内数据集，以提高检索性能。此外，他们还通过数据增强技术和可靠的伊斯兰资源创建了一个英语领域内的检索数据集，从而进一步提升了检索模型的性能。

特点

QUQA数据集的特点在于其多语言支持和领域适应能力。该数据集不仅包含阿拉伯语数据，还包含英语数据，使得模型能够支持跨语言检索。此外，数据集采用了多阶段训练和领域适应技术，使得模型在伊斯兰领域的检索任务中表现出色。最后，数据集的构建过程中还涉及数据增强技术，进一步丰富了领域内数据，提升了模型的检索性能。

使用方法

QUQA数据集的使用方法主要分为两个阶段。第一阶段，利用大型通用领域数据集MS MARCO进行预训练，以获取通用的检索能力。第二阶段，利用领域内数据集QUQA进行微调，以适应伊斯兰领域的特定需求。在训练过程中，研究人员采用了对比学习框架，并通过批量内负样本的方式增强模型的检索能力。此外，为了进一步丰富领域内数据，他们还采用了数据增强技术，创建了相关的锚点-正样本对。最终，通过评估指标MRR@10和Recall@100对模型的检索性能进行评估。

背景与挑战

背景概述

QUQA数据集是在伊斯兰领域内应用自然语言处理(NLP)技术的研究中创建的，其核心研究问题是如何在伊斯兰文献中开发一个神经检索模型。该数据集由Vera Pavlova和rttl labs在阿联酋创建，旨在利用XLM-RBase模型，通过语言缩减技术创建一个轻量级双语文本模型(LLM)。该研究采用多阶段训练过程，结合大型检索数据集（如MS MARCO）和小型领域内数据集，以提升检索性能。此外，研究团队还通过数据增强技术，利用可靠的伊斯兰资源创建了英语领域的检索数据集。该数据集的创建对于提高伊斯兰文献的检索效率，促进对伊斯兰文化及智力遗产的理解具有重要意义。

当前挑战

QUQA数据集面临的挑战主要包括：1)领域内数据稀缺，特别是英语数据，这为构建双语文本模型带来了困难；2)领域适应问题，由于伊斯兰文献的多样性，检索模型在领域适应方面存在挑战；3)数据增强技术的应用，如何在保证数据质量的前提下，有效利用数据增强技术提升模型性能；4)跨语言检索的挑战，如何有效利用跨语言能力，提高非阿拉伯语用户的检索体验。

常用场景

经典使用场景

QUQA数据集主要用于伊斯兰领域内的信息检索，特别是在阿拉伯语和英语两种语言环境下。通过利用XLM-RBase模型和语言缩减技术，创建了一个轻量级的双语文本检索模型，用于快速定位特定段落、主题或作者，从而提高对伊斯兰文献的理解和分析效率。

解决学术问题

QUQA数据集解决了在伊斯兰领域中，由于文本资源丰富而复杂，且涉及多种语言，信息检索系统难以有效工作的学术问题。通过领域适应和多阶段训练方法，QUQA数据集显著提高了检索模型的性能，超越了单语种模型。此外，QUQA数据集还通过数据增强技术，提高了在英语环境下的检索效果。

衍生相关工作

QUQA数据集衍生了多项相关工作，如基于QUQA数据集进行的多语言信息检索模型训练，以及利用QUQA数据集进行的数据增强技术研究等。这些工作进一步推动了伊斯兰领域内的信息检索技术的发展，为构建更高效、更智能的伊斯兰文献检索系统提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集