TyDi QA

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/tydiqa

下载链接

链接失效反馈

官方服务：

资源简介：

TyDi QA是一个包含204,000个问题-答案对的数据集，涵盖11种类型多样的语言。该数据集旨在通过包含多种语言特征，使模型能够跨大量世界语言进行泛化。问题由不知道答案的人撰写，数据直接在每种语言中收集，无需翻译。

TyDi QA is a dataset comprising 204,000 question-answer pairs, spanning 11 diverse languages. The dataset is designed to enable models to generalize across a wide array of world languages by incorporating a variety of linguistic features. The questions are crafted by individuals who are unaware of the answers, and the data is collected directly in each language, eliminating the need for translation.

创建时间：

2020-02-06

原始信息汇总

数据集概述

名称： TyDi QA

描述： TyDi QA是一个涵盖11种类型多样语言的问题回答数据集，包含204,000个问答对。这些语言在类型学上具有多样性，旨在测试模型在多种语言上的泛化能力。数据集中的问题由未知答案的人编写，且数据直接在各语言中收集，无需翻译。

任务

主要任务：
- Passage selection task (SelectP): 从文章的段落列表中返回回答问题的段落索引或NULL（如果无答案）。
- Minimal answer span task (MinSpan): 从文章全文返回最小答案跨度的起始和结束字节索引，或YES/NO（如果问题需要是/否回答），或NULL（如果无法生成最小答案）。
次要任务：
- Gold passage task (GoldP): 给定包含答案的段落，预测回答问题的连续字符跨度。此任务与现有阅读理解数据集更相似，旨在与先前工作直接比较，并提供与SQuAD 1.1、XQuAD和MLQA兼容的简化方式。

数据集下载

主要任务数据集：
- 训练集：链接
- 开发集：链接
Gold passage任务数据集：
- 训练集：链接
- 开发集：链接

评估

主要任务评估：
- 使用tydi_eval.py脚本进行评估，计算语言间的F1分数并排除英语。
Gold passage任务评估：
- 使用SQuAD 1.1评估代码进行评估，每个语言单独评估后平均。

领导者板

鼓励提交到公共领导者板，并提供系统描述和可重复性问题的答案。

数据集来源

文章数据来自Wikipedia的单一连续快照，可从以下URL下载：
- 阿拉伯语
- 孟加拉语
- 英语
- 芬兰语
- 印度尼西亚语
- 日语
- 韩语
- 俄语
- 泰卢固语
- 他加禄语
- 斯瓦希里语
- 泰语

搜集汇总

数据集介绍

构建方式

TyDi QA数据集的构建基于多语言问答任务，旨在评估模型在不同语言环境下的问答能力。该数据集涵盖了包括阿拉伯语、孟加拉语、英语、芬兰语、印尼语、日语、韩语、俄语和泰卢固语在内的多种语言。构建过程中，首先从维基百科中提取多语言文本，随后通过人工标注的方式生成问答对，确保数据的高质量和多样性。

使用方法

TyDi QA数据集主要用于训练和评估多语言问答模型。研究者可以利用该数据集训练模型，以提升其在不同语言环境下的问答能力。此外，数据集还可用于跨语言迁移学习，帮助模型在资源稀缺的语言上表现更佳。在实际应用中，TyDi QA数据集可用于开发多语言问答系统，满足全球用户的需求。

背景与挑战

背景概述

TyDi QA数据集由Google Research于2020年创建，旨在推动多语言问答系统的研究。该数据集涵盖了包括阿拉伯语、孟加拉语、芬兰语、印尼语、日语、韩语、俄语、斯瓦希里语和泰卢固语在内的九种语言，旨在解决现有问答数据集中语言多样性不足的问题。主要研究人员包括Jonathan H. Clark、Eunsol Choi、Michael Collins等，他们的工作显著提升了多语言问答系统的性能，并对自然语言处理领域产生了深远影响。

当前挑战

TyDi QA数据集在构建过程中面临多重挑战。首先，不同语言的语法结构和表达方式差异巨大，导致数据标注和模型训练的复杂性增加。其次，某些语言的资源相对匮乏，缺乏高质量的训练数据，这限制了模型的泛化能力。此外，跨语言知识迁移的有效性也是一个重要挑战，如何在不同语言间共享和利用知识，以提升整体问答系统的性能，是当前研究的重点。

发展历史

创建时间与更新

TyDi QA数据集由Google AI团队于2020年创建，旨在促进多语言问答系统的研究。该数据集自创建以来，未有公开的更新记录。

重要里程碑

TyDi QA数据集的发布标志着多语言问答技术的一个重要里程碑。它包含了11种不同语言的问答对，涵盖了从资源丰富到资源匮乏的各种语言，为研究人员提供了一个全面的测试平台。该数据集的引入促使了多语言模型的发展，特别是在处理非英语语言时的性能提升。此外，TyDi QA还推动了跨语言知识迁移的研究，使得模型能够在不同语言之间共享知识，从而提高整体问答系统的性能。

当前发展情况

目前，TyDi QA数据集已成为多语言问答研究的标准基准之一。许多最新的研究论文和模型评估都将其作为主要测试数据集，以验证其在多语言环境下的有效性。随着自然语言处理技术的不断进步，TyDi QA数据集的应用范围也在不断扩大，从学术研究延伸到工业界的实际应用。它不仅促进了多语言问答系统的技术发展，还为全球范围内的信息获取和知识传播提供了新的可能性。

发展历程

TyDi QA数据集首次发表，由Google AI发布，旨在促进多语言问答系统的研究。
2019年
TyDi QA数据集首次应用于自然语言处理领域的多语言问答挑战赛，吸引了全球研究者的关注。
2020年
TyDi QA数据集被广泛应用于多语言问答模型的训练和评估，推动了多语言自然语言处理技术的发展。
2021年

常用场景

经典使用场景

在自然语言处理领域，TyDi QA数据集被广泛用于多语言问答系统的开发与评估。该数据集涵盖了多种语言，包括但不限于阿拉伯语、孟加拉语、英语、芬兰语、韩语、俄语和泰卢固语，为研究人员提供了一个跨语言问答的基准。通过使用TyDi QA，研究者能够探索不同语言间的问答系统性能差异，从而推动多语言问答技术的进步。

解决学术问题

TyDi QA数据集解决了多语言问答系统研究中的关键问题，即如何在不同语言间实现高效的问答能力。传统的问答系统往往集中在英语等资源丰富的语言上，而TyDi QA的出现填补了这一空白，使得研究人员能够系统地比较和优化不同语言的问答模型。这不仅促进了多语言技术的研究，还为全球范围内的信息获取提供了更为平等的机会。

实际应用

在实际应用中，TyDi QA数据集为开发多语言搜索引擎和智能助手提供了宝贵的资源。例如，搜索引擎可以通过集成TyDi QA的问答模型，提升对非英语用户的搜索体验。此外，智能助手如语音助手和聊天机器人也可以利用该数据集进行多语言支持的训练，从而更好地服务于全球用户，特别是那些使用资源较少语言的用户。

数据集最近研究