NextQuAD
收藏arXiv2024-12-29 更新2025-01-02 收录
下载链接:
https://github.com/mosiomohsen/NextQuAD
下载链接
链接失效反馈官方服务:
资源简介:
NextQuAD是由伊斯法罕大学计算机工程学院创建的一个波斯语开放领域问答数据集,旨在解决波斯语问答系统缺乏高质量数据集的问题。该数据集包含7515个上下文和23918个问答对,数据来源包括SQuAD 2.0的翻译、波斯语游戏应用“Quiz of Kings”以及手动从多个波斯语网站收集的内容。数据集的构建过程涉及翻译、网络爬取和人工标注,确保了数据的高质量和多样性。NextQuAD的应用领域广泛,涵盖了家庭、政治、艺术、体育等多个主题,旨在提升波斯语问答系统的性能,特别是在自然语言处理和机器阅读理解任务中。
NextQuAD is a Persian open-domain question answering (QA) dataset created by the School of Computer Engineering at the University of Isfahan, aiming to address the shortage of high-quality datasets for Persian QA systems. This dataset contains 7,515 context passages and 23,918 question-answer pairs, with data sources including translations of SQuAD 2.0, the Persian game application "Quiz of Kings", and content manually collected from multiple Persian websites. The dataset construction process involves translation, web crawling and manual annotation, ensuring high data quality and diversity. Covering a wide range of topics such as family affairs, politics, art and sports, NextQuAD is designed to improve the performance of Persian QA systems, especially in natural language processing (NLP) and machine reading comprehension (MRC) tasks.
提供机构:
伊斯法罕大学计算机工程学院
创建时间:
2024-12-29
搜集汇总
数据集介绍

构建方式
NextQuAD数据集的构建采用了三种主要方法:首先,通过翻译SQuAD 2.0数据集,使用Google Translation API将英文内容转化为波斯语,并经过人工校对以确保翻译质量;其次,从波斯语游戏应用“Quiz of Kings”中提取了17,000个问题及其答案,并通过网络爬虫技术获取相关上下文;最后,通过众包方式从多个波斯语网站手动收集了超过21,000条问题-答案对。最终,数据集合并了这些来源,形成了包含7,515个上下文和23,918个问题-答案对的高质量数据集。
特点
NextQuAD数据集的特点在于其多样性和高质量。数据集涵盖了多个主题领域,包括家庭、政治、艺术、体育等,确保了内容的广泛性。此外,数据集的构建过程中严格把控了翻译和上下文的质量,并通过人工校对和众包方式确保了数据的准确性和一致性。数据集还包含了未回答问题,增加了模型的挑战性。NextQuAD在波斯语问答系统中表现出色,其模型在开发集上的Exact Match (EM)和F1得分分别达到了0.95和0.97。
使用方法
NextQuAD数据集的使用方法主要围绕波斯语问答系统的训练和评估展开。研究人员可以使用该数据集来训练基于BERT的问答模型,如ParsBERT和XLM-RoBERTa,并通过K折交叉验证来评估模型性能。数据集分为训练集和开发集,开发集用于模型调优和性能评估。此外,NextQuAD还可以与其他波斯语数据集(如PersianQA和ParSQuAD)进行比较,以验证其在不同任务中的泛化能力。数据集和相关代码已公开在GitHub上,便于研究人员进行复现和进一步研究。
背景与挑战
背景概述
NextQuAD数据集由伊朗伊斯法罕大学计算机工程学院的Mohsen Yazdinejad和Marjan Kaedi等人于2022年提出,旨在为波斯语问答系统提供一个高质量的开源数据集。该数据集包含7,515个上下文和23,918个问答对,涵盖了多个领域,如政治、艺术、体育等。NextQuAD的创建填补了波斯语问答系统领域的数据空白,推动了波斯语自然语言处理(NLP)的发展。通过结合SQuAD 2.0的翻译、波斯语问答游戏数据以及手动收集的波斯语网站内容,NextQuAD成为了波斯语问答系统研究的重要资源。该数据集的应用不仅提升了波斯语问答模型的性能,还为多语言NLP研究提供了新的视角。
当前挑战
NextQuAD数据集在构建和应用过程中面临多重挑战。首先,波斯语作为资源较少的语言,缺乏高质量的问答数据集,导致模型训练和评估的难度增加。其次,数据集的构建过程中,翻译SQuAD 2.0时存在翻译质量不一致的问题,需通过人工校对确保数据的准确性。此外,手动收集数据时,如何确保问答对的多样性和覆盖广泛领域也是一个难题。在模型应用方面,尽管NextQuAD在波斯语问答任务中表现出色,但其在跨语言迁移和多语言问答系统中的泛化能力仍需进一步验证。最后,如何通过更先进的集成技术进一步提升模型性能,也是未来研究的重要方向。
常用场景
经典使用场景
NextQuAD数据集在波斯语问答系统中扮演了关键角色,尤其是在机器阅读理解(MRC)任务中。该数据集通过提供丰富的上下文和问答对,支持了基于BERT等预训练语言模型的问答系统的开发与评估。研究人员通常使用NextQuAD来训练和测试模型,以提升模型在波斯语问答任务中的表现,特别是在处理开放域问题时。
实际应用
在实际应用中,NextQuAD数据集被广泛用于构建智能问答系统,特别是在波斯语环境中。这些系统可以应用于搜索引擎、教育平台、医疗咨询等领域,帮助用户快速获取精确的答案。例如,在医疗领域,基于NextQuAD的问答系统能够为患者提供准确的疾病和药物信息,提升医疗服务的效率和质量。
衍生相关工作
NextQuAD数据集的推出激发了波斯语NLP领域的多项研究。基于该数据集,研究人员开发了多种先进的问答模型,如基于ParsBERT和XLM-RoBERTa的模型。此外,NextQuAD还促进了其他波斯语数据集的发展,如PersianQA和ParSQuAD,进一步丰富了波斯语NLP的研究资源。这些工作不仅提升了波斯语问答系统的性能,还为多语言NLP研究提供了宝贵的经验。
以上内容由遇见数据集搜集并总结生成



