TYDI QA

Name: TYDI QA
Creator: Google Research
Published: 2020-03-11 05:11:53
License: 暂无描述

arXiv2020-03-11 更新2024-07-25 收录

下载链接：

https://github.com/google-research-datasets/tydiqa

下载链接

链接失效反馈

官方服务：

资源简介：

TYDI QA数据集由Google Research创建，包含204,000个问题-答案对，涵盖11种语言，旨在推动多语言问题回答系统的研究。数据集特别强调语言的类型多样性，通过直接在各语言环境中收集数据，避免了翻译带来的偏差。数据收集过程中，提问者对答案未知，确保了问题的信息寻求性质。TYDI QA适用于研究模型在处理不同语言现象和数据场景时的表现，旨在解决多语言环境下的问题回答挑战。

The TYDI QA dataset, developed by Google Research, consists of 204,000 question-answer pairs spanning 11 languages, and is intended to promote research on multilingual question answering systems. This dataset places special emphasis on the typological diversity of languages, and avoids translation-induced biases by collecting data directly within the linguistic contexts of each covered language. During the data collection process, questioners were unaware of the corresponding answers, which ensures that all questions are genuinely information-seeking. TYDI QA is suitable for researching model performance when handling diverse linguistic phenomena and data scenarios, and aims to address the challenges of question answering in multilingual environments.

提供机构：

Google Research

创建时间：

2020-03-11

原始信息汇总

TyDi QA 数据集概述

简介

TyDi QA 是一个涵盖11种类型多样语言的问答数据集，包含204K个问题-答案对。这些语言在类型学上具有多样性，旨在评估模型在多种语言上的泛化能力。数据集中的问题由不知道答案的人提出，旨在模拟真实的信息检索场景，避免了翻译和预设答案的问题。

任务

主要任务

Passage selection task (SelectP): 给定文章中的段落列表，返回回答问题的段落索引或NULL。
Minimal answer span task (MinSpan): 给定文章全文，返回回答问题的最小跨度的起始和结束字节索引，或YES/NO，或NULL。

次要任务

Gold passage task (GoldP): 给定包含答案的段落，预测回答问题的单个连续字符跨度。此任务更接近现有的阅读理解数据集。

数据下载

主要任务数据

开发集: tydiqa-v1.0-dev.jsonl.gz
训练集: tydiqa-v1.0-train.jsonl.gz

黄金段落任务数据

开发集: tydiqa-goldp-v1.1-dev.json
训练集: tydiqa-goldp-v1.1-train.json

基准系统

主要任务基准系统

提供基于多语言BERT的基准系统，详细信息见baseline/README.md。

黄金段落任务基准系统

提供与SQuAD 1.1兼容的基准系统，详细信息见gold_passage_baseline/README.md。

评估

主要任务评估

使用tydi_eval.py脚本进行评估，计算语言间的F1分数并取平均值。

黄金段落任务评估

使用SQuAD 1.1评估代码进行评估，详细信息见gold_passage_baseline/eval_gold_passage_baseline.sh。

排行榜提交

鼓励在开发集上报告结果，并提交到公共排行榜。详细提交步骤见leaderboard.md。

引用

请引用TyDi QA TACL文章：

@article{tydiqa, title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki} year = {2020}, journal = {Transactions of the Association for Computational Linguistics} }

搜集汇总

数据集介绍

构建方式

在构建TYDI QA数据集时，研究者采用了一种创新且无模型依赖的数据收集方法，旨在模拟真实信息检索场景。首先，标注者基于维基百科文章的前100个字符作为提示，撰写他们真正感兴趣但尚未知晓答案的问题，确保问题具有信息寻求性质。随后，通过谷歌搜索将每个问题与对应语言的维基百科文章配对，选取排名最高的结果作为潜在答案来源。最后，标注者评估文章是否包含答案，并标注最佳答案段落或最小答案跨度，整个过程完全在每种语言的原生环境中进行，避免了翻译带来的偏差。

使用方法

TYDI QA数据集主要用于评估多语言问答模型的性能，支持两种核心任务：段落选择任务和最小答案跨度任务。在段落选择任务中，模型需从维基百科文章的段落列表中识别出包含答案的段落或返回空值；在最小答案跨度任务中，模型需在全文范围内定位精确答案跨度，或判断是否可回答。研究者可通过微调多语言预训练模型（如mBERT）在训练集上进行实验，并使用开发集和测试集进行验证。数据集还提供了简化版黄金段落任务，便于与现有阅读理解基准（如SQuAD）进行比较，推动跨语言泛化能力的研究。

背景与挑战

背景概述

在自然语言处理领域，多语言信息检索与问答系统的构建一直是研究热点。2020年，谷歌研究团队推出了TYDI QA数据集，旨在为11种类型多样的语言提供信息寻求式问答的基准评估。该数据集由Jonathan H. Clark、Eunsol Choi等学者主导，核心研究问题聚焦于如何设计一个能够反映真实用户信息需求、避免翻译偏差且涵盖丰富语言现象的评估工具。通过直接收集各语言原生问题与答案，TYDI QA不仅推动了跨语言模型的泛化能力研究，还为低资源语言的处理提供了重要数据支持，对多语言自然语言理解领域产生了深远影响。

当前挑战

TYDI QA数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，信息寻求式问答需处理用户未知答案时提出的问题，这导致问题与答案间存在词汇不匹配和语义模糊性，增加了模型理解与匹配的难度；其二，在构建过程中，团队需克服多语言数据收集的复杂性，包括避免使用翻译以保持语言原生性、处理不同语言的形态学差异（如阿拉伯语的变音符号、芬兰语的复合词变化），以及确保标注质量的一致性，这些因素共同构成了数据集构建的技术与资源挑战。

常用场景

经典使用场景

在跨语言自然语言处理领域，TYDI QA数据集常被用作评估多语言问答系统性能的基准。其设计模拟真实信息检索场景，用户提出未知答案的问题，系统需从涵盖11种类型学多样语言的维基百科文章中定位答案。这一过程不仅测试模型对多语言文本的理解能力，还考察其在面对语言形态变化、词汇差异及文化特有表达时的鲁棒性。

解决学术问题

该数据集有效解决了多语言建模中泛化能力评估的难题。通过涵盖阿拉伯语、孟加拉语、芬兰语等类型学特征迥异的语言，它迫使模型超越英语中心主义的局限，学习处理屈折变化、语序自由性、文字系统差异等复杂语言现象。其无翻译数据收集机制避免了翻译文本带来的语言偏差，为研究零样本跨语言迁移、低资源语言理解等前沿课题提供了可靠实验平台。

实际应用

在实际应用中，TYDI QA为构建全球化智能助手和搜索引擎提供了关键训练数据。基于该数据集开发的系统能更好地服务非英语用户，例如帮助印尼语使用者查询本地植物信息，或为阿拉伯语用户解析历史文献。其包含的未回答问题场景也模拟了真实检索中的信息缺失情况，推动开发更具实用性的容错型问答架构。

数据集最近研究