TYDI QA–WANA

arXiv2025-07-24 更新2025-07-25 收录

下载链接：

https://github.com/google-research-datasets/tydiqa-wana

下载链接

链接失效反馈

官方服务：

资源简介：

TYDI QA–WANA 是一个包含 28K 个例子的问答数据集，涵盖西亚和北非的 10 种语言变体。数据收集过程旨在引发信息寻求问题，其中提问者真正好奇答案。每个问题都与一整篇文章配对，这篇文章可能包含也可能不包含答案。由于文章的相对较大规模，因此这个任务适合评估模型利用大文本上下文来回答问题的能力。此外，数据是在每种语言变体中直接收集的，没有使用翻译，以避免文化相关性问题。我们展示了两个基线模型的表现，并发布了我们的代码和数据，以促进研究社区的进一步改进。

TYDI QA–WANA is a question answering dataset consisting of 28K examples, spanning 10 language varieties from West Asia and North Africa. The data collection process was designed to elicit authentic information-seeking questions, where the questioner holds genuine curiosity about the answers. Each question is paired with a full-length article, which may or may not contain the corresponding answer. Given the relatively large scale of the articles, this task is well-suited for evaluating a model's capability to leverage large-scale text contexts for question answering. Moreover, the data was collected directly within each target language variety without relying on machine translation, to avoid issues related to cultural relevance. We present the performance of two baseline models, and release our code and dataset to foster further advancements in the research community.

提供机构：

谷歌

创建时间：

2025-07-24

原始信息汇总

TyDi QA - WANA 数据集概述

数据集简介

名称：TyDi QA - WANA
类型：问答数据集
语言覆盖：10种西亚和北非地区的语言变体
数据规模：52K 问答对
扩展来源：原始 TyDi QA 数据集的扩展

任务描述

任务类型：Minimal answer span (MinSpan)
输入：完整的维基百科文章文本
输出要求：
- 返回最小答案跨度的起始和结束字节索引
- 对于是非问题，返回 YES 或 NO
- 无法回答时返回 NULL

数据统计

语言变体	平均字符数	平均词数（空格分隔）
Algerian Arabic	33.8K	5.5K
Egyptian Arabic	36.1K	5.9K
Iraqi Arabic	31.5K	5.1K
Jordanian Arabic	32.6K	5.3K
Armenian	48.8K	6.0K
Azerbaijani	28.3K	3.6K
Farsi	25.3K	4.6K
Hebrew	22.7K	3.8K
Tajik	17.5K	2.6K
Turkish	17.4K	2.2K
宏观平均	29.4K	4.5K

数据下载

训练集（所有变体）：https://storage.googleapis.com/tydiqa/wana/v1.0/train.all.jsonl
训练集（按变体分类）：https://storage.googleapis.com/tydiqa/wana/v1.0/train.by_variety.jsonl.tar.gz
开发集（所有变体）：https://storage.googleapis.com/tydiqa/wana/v1.0/dev.all.jsonl
开发集（按变体分类）：https://storage.googleapis.com/tydiqa/wana/v1.0/dev.by_variety.jsonl.tar.gz
测试集（所有变体）：https://storage.googleapis.com/tydiqa/wana/v1.0/test.all.jsonl
测试集（按变体分类）：https://storage.googleapis.com/tydiqa/wana/v1.0/test.by_variety.jsonl.tar.gz

数据格式

JSONL 文件结构：
- language：语言变体
- article_plaintext：维基百科文章文本
- question：问题
- answer_types：答案类型列表
- answer_start_byte_indices：答案起始字节索引列表
- answer_end_byte_indices：答案结束字节索引列表
- answer_texts：答案文本列表

评估方法

评估指标：F1 和 Exact Match
评估工具：WANA_Metrics.ipynb 笔记本
模型输出要求：
- generated_answer：模型的答案
- generated_answer_byte_start_index：预测答案的起始字节索引（可选）
- generated_answer_byte_end_index：预测答案的结束字节索引（可选）

数据来源

来源：2023年2月1日的维基百科快照
快照下载模板：https://dumps.wikimedia.org/${LANG}wiki/latest/${LANG}wiki-latest-pages-articles-multistream.xml.bz2

联系方式

问题反馈：通过 GitHub 仓库提交 issue

搜集汇总

数据集介绍

构建方式

TYDI QA–WANA数据集的构建过程采用了多阶段设计，以确保其文化相关性和语言多样性。首先，通过向母语者展示维基百科文章的前150个字符，引导他们提出信息寻求型问题，确保问题的真实性和自然性。随后，利用限定语言版本的谷歌搜索检索相关维基百科文章，并去除表格、列表等非自然文本内容。最后，由1至3名标注者对问题-文章对进行答案标注，包括最小答案跨度、是非判断或无答案标记，并通过严格的培训和质量控制确保标注一致性。

特点

TYDI QA–WANA数据集涵盖了西亚和北非地区的10种语言变体，包含28,197个信息寻求型问题-文章对，突出了其语言多样性和文化特异性。该数据集的一个显著特点是其长上下文设计，平均文章长度达数万字节，适合评估模型处理大文本的能力。此外，数据集中约50%-80%的问题在相关文章中无答案，反映了真实信息检索场景的挑战性，为模型鲁棒性评估提供了重要基准。

使用方法

使用TYDI QA–WANA数据集时，研究者可通过加载其JSON格式文件获取问题、文章及标注答案。评估采用基于NULL共识的F1和精确匹配（EM）指标：当多数标注为NULL时，模型需预测NULL才能得分；否则需输出最小答案跨度或是非判断。基线实验表明，现代大语言模型（如Gemini系列）可通过将整篇文章输入上下文来回答问题，但需注意语言变体间的性能差异。数据集特别适合评估跨语言迁移学习和长上下文建模能力。

背景与挑战

背景概述

TYDI QA–WANA数据集由Google的研究团队于2025年发布，旨在解决西亚和北非地区低资源语言的信息检索问答任务。该数据集包含10种语言变体的2.8万个示例，重点关注信息寻求型问题，即提问者确实对答案感兴趣。数据集的设计避免了翻译过程，确保问题的文化相关性，并通过长文本上下文评估模型的性能。该数据集是对TYDI QA（Clark et al., 2020）的扩展，填补了多语言问答评估在低资源语言和长上下文建模方面的空白。

当前挑战

TYDI QA–WANA数据集面临的主要挑战包括：1) 低资源语言的数据稀缺问题，导致模型在这些语言上的表现较差；2) 长上下文建模的复杂性，要求模型能够有效处理整篇维基百科文章以寻找答案；3) 数据收集过程中的文化相关性保障，需确保问题直接以目标语言提出，而非通过翻译；4) 标注一致性，尤其是在处理多语言和多方言的答案跨度时，确保标注的准确性和一致性具有较高难度。

常用场景

经典使用场景

TYDI QA–WANA数据集在自然语言处理领域中被广泛用于评估多语言问答系统的性能，特别是在西亚和北非地区的低资源语言上。该数据集通过提供信息寻求型问题及其对应的长文本上下文，为研究者提供了一个标准化的测试平台，用于衡量模型在跨语言和跨文化环境下的问答能力。

解决学术问题

TYDI QA–WANA数据集解决了多语言问答系统中低资源语言数据不足的问题，为研究者提供了丰富的语言多样性数据。通过直接收集而非翻译问题，确保了问题的文化相关性，避免了翻译带来的偏差。此外，数据集的长文本设计使得其能够有效评估模型在处理大规模上下文时的能力，填补了现有数据集的空白。

衍生相关工作

TYDI QA–WANA数据集衍生了一系列相关研究，包括多语言预训练模型的优化、长文本处理技术的改进以及跨语言迁移学习方法的探索。例如，基于该数据集的基线模型Gemini 1.5 Pro和Gemini 2.0 Flash展示了现代大语言模型在多语言长文本问答任务中的潜力，推动了相关技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集