akariasai/xor_tydi_qa
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/akariasai/xor_tydi_qa
下载链接
链接失效反馈官方服务:
资源简介:
XOR-TyDi QA首次将信息寻求问题、开放检索问答和多语言问答结合在一起,创建了一个多语言开放检索问答数据集,支持跨语言答案检索。该数据集包含由信息寻求母语者用7种类型多样的语言编写的问题,并从多语言文档集合中检索答案注释。数据集支持三种子任务:XOR-Retrieve、XOR-EnglishSpan和XOR-Full,分别用于跨语言检索、跨语言检索并输出英文短答案以及跨语言检索并输出目标语言短答案。数据集包含7种语言:阿拉伯语、孟加拉语、芬兰语、日语、韩语、俄语和泰卢固语。
XOR-TyDi QA首次将信息寻求问题、开放检索问答和多语言问答结合在一起,创建了一个多语言开放检索问答数据集,支持跨语言答案检索。该数据集包含由信息寻求母语者用7种类型多样的语言编写的问题,并从多语言文档集合中检索答案注释。数据集支持三种子任务:XOR-Retrieve、XOR-EnglishSpan和XOR-Full,分别用于跨语言检索、跨语言检索并输出英文短答案以及跨语言检索并输出目标语言短答案。数据集包含7种语言:阿拉伯语、孟加拉语、芬兰语、日语、韩语、俄语和泰卢固语。
提供机构:
akariasai
原始信息汇总
数据集概述
数据集名称: XOR QA
数据集别名: pretty_name: XOR QA
数据集ID: paperswithcode_id: xor-tydi-qa
语言: 数据集包含7种语言,分别是阿拉伯语 ar、孟加拉语 bn、芬兰语 fi、日语 ja、韩语 ko、俄语 ru、泰卢固语 te。
许可证: 数据集使用MIT许可证。
多语言性: 数据集支持多语言。
大小分类: 数据集大小介于10K至100K之间。
源数据集: 数据集来源包括原始数据和扩展自tydiqa。
任务类别: 数据集主要用于问答任务。
任务ID: 任务ID为open-domain-qa。
数据集结构
配置名称:
- xor-retrieve
- xor-full
特征:
- question: 数据类型为字符串。
- lang: 数据类型为分类标签,包含7种语言。
- answers: 数据类型为字符串。
数据分割:
-
xor-retrieve
- train: 15250个样本,总字节数1698662。
- validation: 2110个样本,总字节数259533。
- test: 2499个样本,总字节数219046。
- 下载大小: 3702288字节。
- 数据集大小: 2177241字节。
-
xor-full
- train: 61360个样本,总字节数7250913。
- validation: 3473个样本,总字节数444672。
- test: 8176个样本,总字节数706664。
- 下载大小: 14018298字节。
- 数据集大小: 8402249字节。
数据集创建
注释创建者: 数据集的注释是通过众包方式完成的。
语言创建者: 语言数据由专家生成和发现。
注释过程: 数据集的注释过程包括四个步骤:收集需要跨语言参考的实际问题、将问题从目标语言翻译到英语、在英语中选择答案跨度、验证并从英语翻译回原始语言。
注释者: 翻译工作由专业翻译服务Gengo完成,答案注释由Mechanical Turk工作者完成。
许可证信息: 数据集根据CC BY-SA 4.0许可证发布。
贡献者: 感谢@sumanthd17添加此数据集。
搜集汇总
数据集介绍

构建方式
在跨语言信息检索领域,XOR-TyDi QA数据集的构建体现了对多语言知识获取的深度探索。该数据集以TyDi QA为基础,通过精心设计的四步流程进行扩展:首先筛选出缺乏同语言答案的真实性问题,随后将这些问题从目标语言翻译至英语作为枢轴语言,进而在英语文档集合中定位答案片段,最后通过验证与回译确保答案的准确性与语言一致性。构建过程中融合了专业翻译服务与众包标注,确保了数据的多样性与可靠性。
特点
XOR-TyDi QA数据集的核心特征在于其首次整合了信息寻求型问题、开放检索问答与多语言问答,构建了一个支持跨语言答案检索的多语言开放检索问答基准。数据集涵盖阿拉伯语、孟加拉语、芬兰语、日语、韩语、俄语和泰卢固语等七种类型各异的语言,每个数据点包含问题、答案及语言标签,并提供了XOR-Retrieve、XOR-EnglishSpan和XOR-Full三种子任务配置,以应对不同跨语言检索场景的需求。
使用方法
该数据集适用于训练和评估跨语言开放检索问答系统,用户可通过HuggingFace平台加载'xor-retrieve'或'xor-full'配置,分别针对不同子任务进行模型开发。数据集已划分为训练集、验证集和测试集,支持直接用于模型训练、超参数调优及性能评估。在XOR-Retrieve任务中,系统需从英语文档中检索答案段落;XOR-EnglishSpan要求输出英语短答案;XOR-Full则需生成目标语言答案,评估指标包括召回率、F1分数和BLEU值等。
背景与挑战
背景概述
在自然语言处理领域,跨语言开放检索问答(Cross-lingual Open-Retrieval Question Answering)是应对全球化信息需求的关键研究方向。XOR-TyDi QA数据集由华盛顿大学等机构的研究团队于2020年创建,核心成员包括Akari Asai、Jungo Kasai等学者。该数据集旨在解决多语言环境下信息稀缺与不对称的难题,通过整合七种类型学多样语言(阿拉伯语、孟加拉语、芬兰语、日语、韩语、俄语、泰卢固语)的真实信息寻求问题,构建了首个支持跨语言答案检索的多语言开放检索问答基准。其创新性在于将信息寻求问题、开放检索问答与多语言处理相结合,推动了多语言问答系统的发展,并为评估模型在复杂跨语言场景中的性能提供了重要工具。
当前挑战
XOR-TyDi QA数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域层面,跨语言开放检索问答需克服非英语语言网络资源有限导致的信息稀缺性,以及不同文化内容偏差引起的信息不对称性,这要求模型具备强大的跨语言理解与检索能力。构建过程中,数据收集依赖专业翻译服务与众包标注,确保问题与答案在多种语言间的准确性与一致性存在较高难度;同时,基于TyDi QA数据集的扩展需处理语言类型多样性带来的语言学差异,如语法结构、命名实体表达等,增加了数据质量控制的复杂性。这些挑战共同塑造了该数据集在推动多语言人工智能技术发展中的独特价值。
常用场景
经典使用场景
在跨语言信息检索领域,XOR-TyDi QA数据集为研究者提供了一个评估模型跨语言检索能力的基准平台。该数据集通过整合七种类型多样的语言,模拟了真实世界中用户使用非母语提问并从多语言文档库中检索答案的场景。经典使用场景涉及模型接收诸如日语或阿拉伯语等目标语言的提问,随后从英文文档集合中定位并提取相关信息,最终以英文或目标语言形式返回答案。这一过程不仅考验模型的语言理解与转换能力,更推动了开放域问答系统在跨语言环境下的性能优化。
实际应用
在实际应用层面,XOR-TyDi QA数据集为构建面向全球用户的多语言智能助手与搜索引擎奠定了坚实基础。例如,在跨国企业知识库查询、多语言教育平台或国际新闻聚合服务中,系统需处理用户以不同语言提出的复杂问题,并从海量多语言文档中精准定位答案。该数据集训练出的模型能够提升此类应用在跨语言检索与问答中的准确性与效率,使信息获取不再受限于单一语言,显著增强了数字服务的包容性与可及性。
衍生相关工作
围绕XOR-TyDi QA数据集,学术界衍生出一系列重要的研究工作。这些工作主要集中在改进跨语言检索模型架构、探索更高效的多语言预训练方法以及设计新颖的评估指标上。例如,部分研究通过引入稠密检索技术或融合多任务学习框架来提升模型在XOR-Retrieve等子任务上的表现。此外,该数据集也常被用作基准,用于验证各类跨语言表示学习模型的有效性,进一步推动了多语言自然语言处理技术的创新与发展。
以上内容由遇见数据集搜集并总结生成



