EstQA

Name: EstQA
Creator: Laboratory of Language Technology at Tallinn University of Technology
Published: 2024-08-22 20:10:22
License: 暂无描述

Hugging Face2024-08-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/TalTechNLP/EstQA

下载链接

链接失效反馈

官方服务：

资源简介：

EstQA数据集是一个用于爱沙尼亚语抽取式问答的数据集，基于维基百科文章并通过PageRank预过滤。训练集包含776个上下文-问题-答案三元组，每个问题有多个可能的答案，每个答案在单独的三元组中。测试集包含603个样本，每个样本包含一个或多个正确答案，总共有892个正确答案。数据集版本1.2从之前的结构重构为扁平结构，版本1.1增加了一些更多的正确答案。

提供机构：

Laboratory of Language Technology at Tallinn University of Technology

创建时间：

2024-08-22

原始信息汇总

Estonian Question Answering dataset (EstQA)

概述

语言: 爱沙尼亚语
任务类别: 问答
许可证: CC BY 4.0
数据集名称: EstQA

数据集信息

特征:
- context: 字符串
- question: 字符串
- answers: 列表
  - answer_start: 整数 (int64)
  - text: 字符串
- title: 字符串
- id: 字符串
分割:
- train: 776个样本, 772885字节
- test: 603个样本, 590275字节
下载大小: 257799字节
数据集大小: 1363160字节

详细描述

数据集用于爱沙尼亚语的抽取式问答，基于维基百科文章，通过PageRank预过滤。
训练集包含776个上下文-问题-答案三元组，每个问题有多个可能的答案，每个答案在一个单独的三元组中。不同问题的数量为512个。
测试集包含603个样本，每个样本包含一个或多个标准答案，总共有892个标准答案。

版本历史

版本1.2: 从https://huggingface.co/datasets/anukaver/EstQA重构，使用扁平化结构。
版本1.1: 测试集v1.1增加了一些标准答案。

引用

如果使用此数据集进行研究，请引用以下论文：

@mastersthesis{mastersthesis, author = {Anu Käver}, title = {Extractive Question Answering for Estonian Language}, school = {Tallinn University of Technology (TalTech)}, year = 2021 }

搜集汇总

数据集介绍

构建方式

EstQA数据集的构建基于爱沙尼亚语的维基百科文章，通过PageRank算法进行预筛选，确保数据的相关性和质量。数据标注工作由一名专业人员完成，确保了标注的一致性和准确性。训练集包含776个上下文-问题-答案三元组，每个问题可能对应多个答案，分别存储在不同的三元组中。测试集包含603个样本，每个样本包含一个或多个标准答案，总计892个标准答案。

特点

EstQA数据集的特点在于其专注于爱沙尼亚语的抽取式问答任务，涵盖了丰富的上下文和多样的问题类型。数据集的结构经过优化，采用了扁平化的存储方式，便于数据处理和分析。每个问题可能对应多个答案，这为模型训练提供了更多的参考信息，有助于提高问答系统的准确性和鲁棒性。

使用方法

使用EstQA数据集时，研究人员可以通过加载训练集和测试集进行模型训练和评估。数据集的扁平化结构简化了数据加载过程，便于直接应用于现有的问答系统框架。通过引用相关研究论文，用户可以确保数据使用的学术规范性。数据集适用于爱沙尼亚语的自然语言处理研究，特别是在抽取式问答任务中的应用。

背景与挑战

背景概述

EstQA数据集是专为爱沙尼亚语设计的抽取式问答数据集，由Tallinn University of Technology (TalTech)的Anu Käver于2021年创建。该数据集基于维基百科文章，通过PageRank算法进行预筛选，并由单人完成标注。EstQA的核心研究问题在于提升爱沙尼亚语在自然语言处理中的问答系统性能，填补了该语言在问答任务上的数据空白。该数据集不仅为爱沙尼亚语的自然语言处理研究提供了重要资源，还为多语言问答系统的开发提供了参考。

当前挑战

EstQA数据集在构建过程中面临多重挑战。首先，爱沙尼亚语作为低资源语言，其语料库的稀缺性使得数据收集和标注工作尤为困难。其次，抽取式问答任务要求高质量的上下文与问题-答案对，这对标注者的语言理解能力和专业知识提出了较高要求。此外，数据集的规模相对较小，训练集仅包含776个样本，测试集为603个样本，这可能限制了模型在复杂场景下的泛化能力。最后，由于标注工作由单人完成，可能存在一定的主观性和一致性偏差，影响数据集的整体质量。

常用场景

经典使用场景

EstQA数据集主要用于爱沙尼亚语的抽取式问答系统研究。该数据集基于维基百科文章，通过PageRank算法进行预筛选，并由人工标注，确保了数据的质量和相关性。研究人员可以利用该数据集训练和评估问答模型，特别是在处理爱沙尼亚语这种资源相对较少的语言时，EstQA提供了一个标准化的基准。

衍生相关工作

EstQA数据集衍生了一系列相关研究，特别是在低资源语言问答系统领域。基于该数据集，研究人员提出了多种改进模型，如基于预训练语言模型的问答系统，以及跨语言迁移学习方法。这些工作不仅提升了爱沙尼亚语问答系统的性能，还为其他低资源语言的问答系统研究提供了宝贵的经验。

数据集最近研究