ArTrivia

github2023-12-28 更新2024-05-31 收录

下载链接：

https://github.com/salrowili/ArTrivia

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了ArTrivia，一个新的阿拉伯语问答数据集，包含超过10,000个问题-答案对以及相关段落，涵盖了阿拉伯语中18个多样化的主题。我们使用了一个新提出的管道，利用阿拉伯语维基百科的多样化结构化数据源来创建我们的数据集。此外，我们对ArTrivia进行了全面的统计分析，并评估了我们管道中每个组件的性能。我们还通过各种实验设置比较了ArTrivia与现有的TyDi QA数据集的性能。我们的分析强调了在数据集创建中经常被忽视的方面，如答案规范化，这对于提高QA数据集的质量至关重要。我们的评估还表明，ArTrivia向TyDi提出了更多挑战性和分布外的问题，提出了使用ArTrivia作为TyDi的补充数据集的可行性问题。

We introduce ArTrivia, a novel Arabic question-answering dataset comprising over 10,000 question-answer pairs along with relevant passages, spanning 18 diverse topics in Arabic. We employed a newly proposed pipeline that leverages diverse structured data sources from Arabic Wikipedia to create our dataset. Furthermore, we conducted a comprehensive statistical analysis of ArTrivia and evaluated the performance of each component in our pipeline. We also compared the performance of ArTrivia with the existing TyDi QA dataset across various experimental setups. Our analysis highlights aspects often overlooked in dataset creation, such as answer normalization, which is crucial for enhancing the quality of QA datasets. Our evaluations also indicate that ArTrivia presents more challenging and out-of-distribution questions to TyDi, raising questions about the feasibility of using ArTrivia as a complementary dataset to TyDi.

创建时间：

2023-10-18

原始信息汇总

数据集概述

数据集名称

ArTrivia

数据集描述

ArTrivia是一个新的阿拉伯语问答数据集，包含超过10,000个问题-答案对及其相关段落，覆盖了18个多样化的主题。该数据集通过利用阿拉伯语维基百科的多样化结构化数据源创建。

数据集文件

ArTrivia-Dev.json: 原始的ArTrivia开发数据集
ArTrivia-Dev-pre.json: 预处理的ArTrivia开发数据集
ArTrivia-Train.json: 原始的ArTrivia训练数据集
ArTrivia-Train-pre.json: 预处理的ArTrivia训练数据集

数据集预处理

预处理步骤遵循AraELECTRA的适应方法，详细步骤可在提供的Colab笔记本中查看。

数据集用途

用于评估和比较问答系统的性能，特别是在阿拉伯语环境下的应用。

数据集评估

数据集与现有的TyDi QA数据集进行了比较，评估了答案标准化等关键因素对数据集质量的影响。

数据集出版信息

标题: ArTrivia: Harvesting Arabic Wikipedia to Build A New Arabic Question Answering Dataset
作者: Sultan Alrowili, K Vijay-Shanker
编辑: Hassan Sawaf, Samhaa El-Beltagy, Wajdi Zaghouani, Walid Magdy, Ahmed Abdelali, Nadi Tomeh, Ibrahim Abu Farha, Nizar Habash, Salam Khalifa, Amr Keleg, Hatem Haddad, Imed Zitouni, Khalil Mrini, Rawan Almatham
出版物: Proceedings of ArabicNLP 2023
出版日期: 2023年12月
出版地点: 新加坡（混合会议）
出版社: 计算语言学协会
页码: 191-207
摘要: 介绍了ArTrivia数据集的创建、统计分析及其与TyDi QA数据集的比较结果。

搜集汇总

数据集介绍

构建方式

ArTrivia数据集的构建过程基于阿拉伯语维基百科的多样化结构化数据源，采用了一种新颖的流水线方法。通过从维基百科中提取相关段落和问题-答案对，构建了一个包含超过10,000个问答对的数据集，涵盖了18个不同的主题。数据预处理步骤借鉴了AraELECTRA的方法，并通过公开的Colab笔记本和AraBERT GitHub页面提供的工具进行实现。这一过程不仅确保了数据的多样性和广泛性，还通过统计分析和组件性能评估，进一步优化了数据集的质量。

使用方法

ArTrivia数据集的使用方法较为灵活，用户可以通过提供的JSON文件直接访问原始数据或预处理后的数据。数据集分为训练集和开发集，分别以Raw和Pre-processed两种形式提供，便于用户根据需求选择使用。此外，用户可以通过Colab笔记本和AraBERT GitHub页面提供的工具进行数据预处理和模型训练。未来，数据集计划上传至Huggingface Hub，并分享评估代码和API，以支持更广泛的研究和应用。

背景与挑战

背景概述

ArTrivia数据集由Sultan Alrowili和K. Vijay-Shanker于2023年创建，旨在通过阿拉伯语维基百科构建一个全新的阿拉伯语问答数据集。该数据集包含超过10,000个问答对及相关段落，涵盖了18个多样化的主题。ArTrivia的构建过程利用了阿拉伯语维基百科中的结构化数据源，并通过一系列预处理步骤优化了数据质量。该数据集在阿拉伯自然语言处理领域具有重要影响力，特别是在问答系统研究中，为研究者提供了一个更具挑战性和多样性的基准。ArTrivia的发布不仅填补了阿拉伯语问答数据集的空白，还为未来的多语言问答系统研究提供了新的方向。

当前挑战

ArTrivia数据集在构建过程中面临多重挑战。首先，阿拉伯语的复杂性和多样性使得数据收集和预处理变得尤为困难，尤其是在答案标准化和文本规范化方面。其次，尽管数据集涵盖了广泛的主题，但其规模相对较小，可能限制了模型的泛化能力。此外，ArTrivia的构建依赖于阿拉伯语维基百科的结构化数据，这可能导致数据偏差，尤其是在某些主题或领域的覆盖不足。最后，尽管ArTrivia在开放域问答场景中表现出色，但其与现有数据集（如TyDi QA）的对比评估仍需进一步优化，以验证其作为补充数据集的可行性。

常用场景

经典使用场景

ArTrivia数据集在阿拉伯语自然语言处理领域中被广泛用于问答系统的开发与评估。该数据集通过从阿拉伯语维基百科中提取的多样化主题问题-答案对，为研究者提供了一个丰富的资源，用于训练和测试问答模型。其经典使用场景包括在开放域问答系统中评估模型的性能，尤其是在处理阿拉伯语这种形态丰富的语言时，ArTrivia能够有效帮助研究者理解模型在处理复杂语言结构时的表现。

解决学术问题

ArTrivia数据集解决了阿拉伯语问答系统中数据稀缺和多样性不足的问题。通过提供涵盖18个不同主题的10,000多个问题-答案对，该数据集为研究者提供了一个更具挑战性和多样性的评估平台。此外，ArTrivia还通过引入答案归一化等数据处理技术，提升了问答数据集的质量，为学术界提供了更可靠的基准。其与TyDi QA数据集的对比分析，进一步揭示了现有数据集在处理分布外问题时的局限性，推动了问答系统研究的深入发展。

实际应用

在实际应用中，ArTrivia数据集被广泛用于开发阿拉伯语智能助手、教育工具和信息检索系统。例如，在教育领域，基于ArTrivia训练的问答模型可以帮助学生快速获取阿拉伯语维基百科中的知识；在商业领域，该数据集可用于优化阿拉伯语搜索引擎的问答功能，提升用户体验。此外，ArTrivia还为多语言问答系统的开发提供了重要参考，尤其是在处理低资源语言时，其数据处理和评估方法具有较高的借鉴价值。

数据集最近研究