google/xquad
收藏Hugging Face2024-01-04 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/xquad
下载链接
链接失效反馈官方服务:
资源简介:
XQuAD(跨语言问答数据集)是一个用于评估跨语言问答性能的基准数据集。该数据集包含来自SQuAD v1.1开发集的240个段落和1190个问答对,并提供了这些内容的专业翻译,涵盖西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语等十种语言。因此,该数据集在11种语言之间是完全平行的。
XQuAD(跨语言问答数据集)是一个用于评估跨语言问答性能的基准数据集。该数据集包含来自SQuAD v1.1开发集的240个段落和1190个问答对,并提供了这些内容的专业翻译,涵盖西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语等十种语言。因此,该数据集在11种语言之间是完全平行的。
提供机构:
google
原始信息汇总
数据集概述
基本信息
- 数据集名称: XQuAD
- 数据集类型: 跨语言问答数据集
- 语言: 阿拉伯语、德语、希腊语、英语、西班牙语、印地语、罗马尼亚语、俄语、泰语、土耳其语、越南语、中文
- 许可证: CC BY-SA 4.0
- 多语言性: 多语言
- 任务类型: 问答
- 任务ID: 抽取式问答
- 数据集ID: xquad
- 数据集别名: XQuAD
数据集结构
数据实例配置
-
xquad.ar
- 特征:
id: 字符串context: 字符串question: 字符串answers: 序列text: 字符串answer_start: 整数 (int32)
- 分割:
validation: 1190个实例, 1722775字节
- 下载大小: 263002字节
- 数据集大小: 1722775字节
- 特征:
-
xquad.de
- 特征:
id: 字符串context: 字符串question: 字符串answers: 序列text: 字符串answer_start: 整数 (int32)
- 分割:
validation: 1190个实例, 1283277字节
- 下载大小: 241957字节
- 数据集大小: 1283277字节
- 特征:
-
xquad.el
- 特征:
id: 字符串context: 字符串question: 字符串answers: 序列text: 字符串answer_start: 整数 (int32)
- 分割:
validation: 1190个实例, 2206666字节
- 下载大小: 324379字节
- 数据集大小: 2206666字节
- 特征:
-
xquad.en
- 特征:
id: 字符串context: 字符串question: 字符串answers: 序列text: 字符串answer_start: 整数 (int32)
- 分割:
validation: 1190个实例, 1116099字节
- 下载大小: 212372字节
- 数据集大小: 1116099字节
- 特征:
-
xquad.es
- 特征:
id: 字符串context: 字符串question: 字符串answers: 序列text: 字符串answer_start: 整数 (int32)
- 分割:
validation: 1190个实例, 1273475字节
- 下载大小: 236874字节
- 数据集大小: 1273475字节
- 特征:
数据分割
| 配置名称 | 验证集实例数 |
|---|---|
| xquad.ar | 1190 |
| xquad.de | 1190 |
| xquad.el | 1190 |
| xquad.en | 1190 |
| xquad.es | 1190 |
数据集创建
数据集来源
- 源数据集: SQuAD v1.1的扩展
许可证信息
- 许可证: CC BY-SA 4.0
引用信息
@article{Artetxe:etal:2019, author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama}, title = {On the cross-lingual transferability of monolingual representations}, journal = {CoRR}, volume = {abs/1910.11856}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.11856} }
搜集汇总
数据集介绍

构建方式
在跨语言自然语言处理领域,XQuAD数据集的构建体现了严谨的学术范式。该数据集以SQuAD v1.1开发集中的240个段落和1190个问答对为基础,通过专业翻译人员将其精准转化为西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语十种语言版本。这种构建方式确保了源语言与目标语言之间在语义和结构上的高度一致性,为跨语言问答研究提供了高质量的平行语料。每个语言版本均包含相同的篇章、问题及对应答案,形成了完整的十一语言平行数据集。
特点
XQuAD数据集的核心特征在于其卓越的多语言平行性与结构统一性。该数据集覆盖了包括阿拉伯语、德语、希腊语、英语、西班牙语、印地语、罗马尼亚语、俄语、泰语、土耳其语、越南语和中文在内的十二种语言,每种语言均包含完全相同的1190个验证集样本。这种设计使得研究者能够精确评估模型在不同语言间的知识迁移能力与泛化性能。数据集中每个样本均包含篇章上下文、问题文本以及标注了起始位置和文本内容的答案,为抽取式问答任务提供了标准化的评估框架。
使用方法
在跨语言机器学习研究中,XQuAD数据集主要作为基准测试工具用于模型评估。研究者可通过HuggingFace平台直接加载特定语言配置,如`xquad.zh`代表中文子集。数据集仅包含验证集,适用于在训练后对模型进行零样本或多语言微调后的性能测评。典型工作流程包括:加载对应语言的数据,利用预训练模型进行篇章理解与答案抽取,并通过对比模型在英语源语言与其他目标语言上的表现,系统分析其跨语言迁移效能。该数据集支持对多语言表示学习、机器翻译增强问答等前沿方向的量化评估。
背景与挑战
背景概述
在自然语言处理领域,跨语言理解能力是衡量模型泛化性能的关键指标。XQuAD(Cross-lingual Question Answering Dataset)由谷歌DeepMind团队于2019年构建,旨在评估机器阅读理解模型在多种语言间的迁移能力。该数据集以SQuAD v1.1的开发集为基础,通过专业翻译将240个段落和1190个问答对转化为包括西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语在内的十种语言,形成了完全平行的十一语言语料库。其核心研究问题聚焦于跨语言表征的可迁移性,为多语言预训练模型提供了标准化评估基准,显著推动了跨语言自然语言处理研究的发展。
当前挑战
XQuAD数据集致力于解决跨语言问答任务的评估挑战,其核心在于衡量模型从源语言到目标语言的零样本迁移能力。这要求模型不仅需要理解不同语言的语法和语义结构,还需克服语言间的文化差异和表达习惯带来的理解偏差。在构建过程中,专业翻译的准确性成为关键挑战,需确保译文在保持原文信息完整性的同时,符合目标语言的表达规范,避免因翻译失真导致评估偏差。此外,数据集的规模相对有限,覆盖的语言类型虽具代表性,但未能涵盖全球所有主要语系,限制了其在更广泛语言场景下的适用性。
常用场景
经典使用场景
在跨语言自然语言处理领域,XQuAD数据集作为一项基准评估工具,其经典使用场景聚焦于衡量多语言问答模型的性能。该数据集通过将SQuAD v1.1的段落与问题-答案对专业翻译为十种语言,构建了完全平行的多语言语料。研究者通常利用XQuAD来测试模型在未见语言上的零样本迁移能力,评估其是否能够将英语语境下学到的知识泛化至阿拉伯语、德语、中文等多种语言,从而揭示模型在跨语言理解上的鲁棒性与局限性。
解决学术问题
XQuAD数据集的构建,旨在解决跨语言表示迁移中的核心学术问题,即单语预训练模型能否在无需目标语言标注数据的情况下,实现有效的跨语言知识传递。该数据集为探究多语言上下文表示的一致性、语言间语义对齐的机制提供了标准化评估框架。其意义在于推动了跨语言预训练、零样本学习等研究方向的发展,促使研究者设计更先进的模型架构与训练策略,以克服语言壁垒,提升人工智能系统的语言普适性。
衍生相关工作
围绕XQuAD数据集,学术界衍生了一系列经典研究工作。例如,多语言BERT(mBERT)与XLM等预训练模型常以XQuAD作为关键评估基准,以验证其跨语言能力。后续研究如XLM-R进一步扩展了语言覆盖,并在XQuAD上展示了卓越性能。这些工作不仅深化了对跨语言迁移机制的理论理解,也催生了如语言适配器、翻译增强训练等创新方法,持续推动着多语言自然语言处理技术的前沿进展。
以上内容由遇见数据集搜集并总结生成



