FoQA

Name: FoQA
Creator: 冰岛大学
Published: 2025-02-11 23:33:17
License: 暂无描述

arXiv2025-02-11 更新2025-02-13 收录

下载链接：

https://huggingface.co/datasets/alexandrainst/foqa

下载链接

链接失效反馈

官方服务：

资源简介：

FoQA是一个提取式问题回答数据集，包含2000个样本，通过结合大型语言模型和人工验证的半自动化方法创建。数据来源于法罗语维基百科文章，使用GPT-4-turbo生成初始问题答案对，并通过问题重写增加复杂性。数据集分为验证版、完整版和错误样本版三个版本，可用于评估法罗语的问题回答性能。

FoQA is an extractive question answering dataset containing 2000 samples, constructed via a semi-automated methodology that integrates large language models and human verification. The dataset is sourced from Faroese Wikipedia articles, where initial question-answer pairs were generated using GPT-4-turbo, and the complexity of these pairs was enhanced through question rewriting. It is divided into three variants: the validation set, the full dataset, and the erroneous sample set, which can be employed to evaluate question answering performance in the Faroese language.

提供机构：

冰岛大学

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

FoQA数据集的构建采用了半自动化方法，结合大型语言模型（LLM）和人工验证。首先，利用GPT-4-turbo模型从法罗语维基百科文章中生成初步的问答对。接着，对问题进行改写以增加复杂性，并经过母语者验证以保证质量。最终，数据集提供了多种模型的基线性能指标，包括LLM和BERT，证明了其在评估法罗语问答性能方面的有效性。

使用方法

FoQA数据集的使用方法如下：1. 下载数据集，包括验证集、完整集和错误分析集；2. 使用数据集进行问答模型的训练和评估；3. 分析模型在数据集上的性能，包括F1分数和精确匹配度；4. 根据模型在数据集上的表现，调整模型参数和结构以改进问答性能。

背景与挑战

背景概述

自然语言处理（NLP）领域近年来取得了显著的进展，特别是由于Transformer架构的引入（Vaswani et al., 2017），使得大规模模型在理解和生成人类语言方面表现出色（Devlin et al., 2018; Brown et al., 2020）。然而，尽管许多模型是“大规模多语言”的（Conneau et al., 2019; He et al., 2021a; Brown et al., 2020），但它们通常在高资源语言上的表现更好，而对低资源语言的支持不足。此外，低资源语言通常缺乏能够作为数据标注者的母语者，这使得创建高质量的评估数据集变得困难。高质量评估数据集对于评估和改进这些语言的模型至关重要，有助于衡量性能并指导语言技术的发展。抽取式问答数据集（Srivastava and Memon, 2024）尤其有用，因为它们模拟了现实世界的应用，如检索增强生成（Gao et al., 2023）。创建这些数据集传统上需要大量的人力，通常涉及多个标注者进行问题生成和答案验证。创建这些数据集的标准化方法可以显著推动低资源语言技术的进步。我们的研究解决了这些挑战，并做出了以下关键贡献：一种使用半自动化方法生产高质量抽取式问答数据集的效率高、单人标注者方法，该方法显著减少了创建数据集所需的人力，并提供了一个开源的Python代码库。这是第一个使用这种方法创建的法罗语抽取式问答数据集。FoQA数据集由冰岛大学的Annika Simonsen、Dan Saattrup Nielsen和Hafsteinn Einarsson于2025年2月创建，包含2,000个样本，通过结合大型语言模型（LLMs）和人工验证的半自动化方法生成。数据集从法罗语维基百科文章中生成，使用GPT-4-turbo进行初步的问答生成，然后通过问题改写增加复杂性，并由母语者进行验证以确保质量。我们提供了FoQA在多个模型上的基线性能指标，包括LLMs和BERT，证明了其在评估法罗语问答性能方面的有效性。数据集以三种版本发布：2,000个样本的验证集、所有10,001个生成样本的完整集以及2,395个被拒绝的样本集，用于错误分析。

当前挑战

FoQA数据集面临的主要挑战包括：1) 法罗语作为一种低资源语言，缺乏高质量的数据集和标注资源，这使得创建和验证数据集变得困难；2) 在构建数据集的过程中，需要解决如何有效地使用LLMs生成高质量的问答对的问题，同时避免过度依赖LLMs可能引入的偏差；3) 需要开发一种有效的半自动化方法，以减少人工标注的负担，同时确保数据集的质量；4) 在评估模型性能时，需要考虑不同模型架构（如编码器模型和解码器模型）之间的性能差异，以及如何优化模型以适应法罗语这种低资源语言的特性。

常用场景

经典使用场景

在自然语言处理领域，FoQA数据集被广泛用于评估和训练远端语言模型在法罗语中的问答能力。该数据集通过结合大型语言模型和人工验证的半自动化方法生成，涵盖了2,000个样本，为法罗语问答研究提供了宝贵的资源。FoQA数据集的经典使用场景包括训练和评估各种语言模型，特别是针对低资源语言模型的研究，如BERT和GPT系列模型。此外，FoQA数据集还可用于研究不同类型问题的问答效果，例如关于时间、地点、人物和对象的问题。

解决学术问题

FoQA数据集解决了低资源语言缺乏高质量问答数据集的问题，这对于推动低资源语言的语言技术发展具有重要意义。传统的问答数据集创建方法需要大量的人力，而FoQA数据集通过半自动化方法显著减少了所需的人力。此外，FoQA数据集还揭示了LLMs在法罗语问答任务上的性能差异，为未来研究和改进提供了重要参考。FoQA数据集还为研究不同类型问题的问答效果提供了宝贵资源，有助于推动问答技术的进步。

实际应用

FoQA数据集在实际应用中具有广泛的应用前景。首先，FoQA数据集可用于训练和评估法罗语问答系统，为法罗语用户提供更准确的问答服务。其次，FoQA数据集还可用于研究不同类型问题的问答效果，例如关于时间、地点、人物和对象的问题，为开发更智能的问答系统提供支持。此外，FoQA数据集还可用于研究不同类型问题的问答效果，例如关于时间、地点、人物和对象的问题，为开发更智能的问答系统提供支持。

数据集最近研究