facebook/mlqa
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/facebook/mlqa
下载链接
链接失效反馈资源简介:
MLQA(多语言问答)数据集是一个涵盖多种语言(包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的问答数据集。该数据集的任务类别是问答任务,具体任务类型是抽取式问答。数据集的创建者是通过众包方式完成的,数据集的大小在10K到100K之间。数据集的配置信息详细列出了每种语言的训练、验证和测试集的特征、大小和示例数量。
提供机构:
facebook
原始信息汇总
MLQA (MultiLingual Question Answering) 数据集概述
基本信息
- 名称: MLQA (MultiLingual Question Answering)
- 语言:
- 英语 (en)
- 德语 (de)
- 西班牙语 (es)
- 阿拉伯语 (ar)
- 中文 (zh)
- 越南语 (vi)
- 印地语 (hi)
- 许可证: CC-BY-SA-3.0
- 数据来源: 原始数据
- 数据规模: 10K<n<100K
- 数据创建者: 众包
- 标注创建者: 众包
- 多语言性: 多语言
- 任务类别: 问答
- 任务ID: 抽取式问答 (extractive-qa)
- Papers with Code ID: mlqa
数据集配置信息
配置: mlqa-translate-train.ar
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 101227245
- 样本数: 78058
- validation:
- 字节数: 13144332
- 样本数: 9512
- train:
- 下载大小: 63364123
- 数据集大小: 114371577
配置: mlqa-translate-train.de
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 77996825
- 样本数: 80069
- validation:
- 字节数: 10322113
- 样本数: 9927
- train:
- 下载大小: 63364123
- 数据集大小: 88318938
配置: mlqa-translate-train.vi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 97387431
- 样本数: 84816
- validation:
- 字节数: 12731112
- 样本数: 10356
- train:
- 下载大小: 63364123
- 数据集大小: 110118543
配置: mlqa-translate-train.zh
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 55143547
- 样本数: 76285
- validation:
- 字节数: 7418070
- 样本数: 9568
- train:
- 下载大小: 63364123
- 数据集大小: 62561617
配置: mlqa-translate-train.es
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 80789653
- 样本数: 81810
- validation:
- 字节数: 10718376
- 样本数: 10123
- train:
- 下载大小: 63364123
- 数据集大小: 91508029
配置: mlqa-translate-train.hi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 168117671
- 样本数: 82451
- validation:
- 字节数: 22422152
- 样本数: 10253
- train:
- 下载大小: 63364123
- 数据集大小: 190539823
配置: mlqa-translate-test.ar
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 5484467
- 样本数: 5335
- test:
- 下载大小: 10075488
- 数据集大小: 5484467
配置: mlqa-translate-test.de
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 3884332
- 样本数: 4517
- test:
- 下载大小: 10075488
- 数据集大小: 3884332
配置: mlqa-translate-test.vi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 5998327
- 样本数: 5495
- test:
- 下载大小: 10075488
- 数据集大小: 5998327
配置: mlqa-translate-test.zh
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 4831704
- 样本数: 5137
- test:
- 下载大小: 10075488
- 数据集大小: 4831704
配置: mlqa-translate-test.es
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 3916758
- 样本数: 5253
- test:
- 下载大小: 10075488
- 数据集大小: 3916758
配置: mlqa-translate-test.hi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 4608811
- 样本数: 4918
- test:
- 下载大小: 10075488
- 数据集大小: 4608811
配置: mlqa.ar.ar
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 8216837
- 样本数: 5335
- validation:
- 字节数: 808830
- 样本数: 517
- test:
- 下载大小: 75719050
- 数据集大小: 9025667
配置: mlqa.ar.de
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 2132247
- 样本数: 1649
- validation:
- 字节数: 358554
- 样本数: 207
- test:
- 下载大小: 75719050
- 数据集大小: 2490801
配置: mlqa.ar.vi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 3235363
- 样本数: 2047
- validation:
- 字节数: 283834
- 样本数: 163
- test:
- 下载大小: 75719050
- 数据集大小: 3519197
配置: mlqa.ar.zh
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 3175660
- 样本数: 1912
- validation:
- 字节数: 334016
- 样本数: 188
- test:
- 下载大小: 75719050
- 数据集大小: 3509676
配置: mlqa.ar.en
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 8074057
- 样本数: 5335
- validation:
- 字节数: 794775
- 样本数: 517
- test:
- 下载大小: 75719050
- 数据集大小: 8868832
配置: mlqa.ar.es
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 2981237
- 样本数: 1978
- validation:
- 字节数: 223188
- 样本数: 161
- test:
- 下载大小: 75719050
- 数据集大小: 3204425
配置: mlqa.ar.hi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 2993225
- 样本数: 1831
- validation:
- 字节数: 276727
- 样本数: 186
- test:
- 下载大小: 75719050
- 数据集大小: 3269952
配置: mlqa.de.ar
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1587005
- 样本数: 1649
- validation:
- 字节数: 195822
- 样本数: 207
- test:
- 下载大小: 75719050
- 数据集大小: 1782827
配置: mlqa.de.de
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 4274496
- 样本数: 4517
- validation:
- 字节数: 477366
- 样本数: 512
- test:
- 下载大小: 75719050
- 数据集大小: 4751862
配置: mlqa.de.vi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1654540
- 样本数: 1675
- validation:
- 字节数: 211985
- 样本数: 182
- test:
- 下载大小: 75719050
- 数据集大小: 1866525
配置: mlqa.de.zh
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1645937
- 样本数: 1621
- validation:
- 字节数: 180114
- 样本数: 190
- test:
- 下载大小: 75719050
- 数据集大小: 1826051
配置: mlqa.de.en
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 4251153
- 样本数: 4517
- validation:
- 字节数: 474863
- 样本数: 512
- test:
- 下载大小: 75719050
- 数据集大小: 4726016
配置: mlqa.de.es
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1678176
- 样本数: 1776
- validation:
- 字节数: 166193
- 样本数: 196
- test:
- 下载大小: 75719050
- 数据集大小: 1844369
配置: mlqa.de.hi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1343983
- 样本数: 1430
- validation:
- 字节数: 15067
- test:
搜集汇总
数据集介绍

构建方式
MLQA数据集的构建过程严谨且精细。该数据集由Facebook AI团队创建,旨在评估多语言问答模型的能力。数据集的构建涉及从原始数据中提取问答对,并确保这些问答对在多种语言中均有对应。构建过程中,使用了众包的方式进行语言创建和标注,确保了数据集的多样性和覆盖范围。
特点
MLQA数据集具有以下特点:首先,它是多语言的,涵盖了英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语等七种语言,能够帮助研究人员评估多语言问答模型在不同语言环境下的表现。其次,数据集包含了训练集和验证集,以及测试集,方便研究人员进行模型的训练、验证和测试。此外,数据集采用了CC BY-SA 3.0许可证,允许研究人员在遵守协议的前提下自由使用和分享。
使用方法
使用MLQA数据集的方法如下:首先,研究人员需要从HuggingFace网站下载所需的语言版本的数据集。然后,根据数据集的配置文件,将数据集加载到模型中进行训练或测试。在训练过程中,研究人员可以利用训练集对模型进行训练,并使用验证集来评估模型的性能。在测试过程中,研究人员可以使用测试集来评估模型在实际应用中的表现。需要注意的是,由于数据集是多语言的,因此在处理过程中需要根据不同的语言进行相应的处理。
背景与挑战
背景概述
MLQA(MultiLingual Question Answering)数据集是在多语言问答系统领域的一项重要研究,旨在解决跨语言信息检索与问答的问题。该数据集由Facebook于2018年创建,涉及七种语言:英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语。MLQA的核心研究问题是提高多语言问答系统的准确性和效率,使其能够处理不同语言和文化背景下的问答任务。MLQA数据集对相关领域的影响力在于,它为多语言问答研究提供了一个大规模、高质量的数据集,促进了多语言问答系统的开发和评估,推动了该领域的快速发展。
当前挑战
MLQA数据集在构建过程中面临的主要挑战包括:1) 跨语言信息的处理与理解;2) 不同语言之间语义的差异与一致性;3) 大规模数据集的构建与维护。此外,MLQA数据集在应用过程中也面临一些挑战,如:1) 如何提高多语言问答系统的准确性和鲁棒性;2) 如何更好地处理跨语言问答中的歧义和模糊性;3) 如何应对不同文化背景下的问答任务。这些挑战需要研究者们在算法设计、模型训练和系统评估等方面进行深入研究,以推动多语言问答系统的发展。
常用场景
经典使用场景
MLQA 数据集在多语言问答系统中扮演了重要的角色。该数据集支持多种语言,包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语,使得研究人员能够在不同语言环境中进行模型训练和评估。其经典的使用场景包括但不限于:训练多语言问答模型、跨语言信息检索、以及多语言知识图谱构建等。
解决学术问题
MLQA 数据集的创建解决了多语言问答领域中数据稀缺的问题,为研究者提供了大量的多语言问答对。该数据集的发布促进了多语言问答技术的发展,使得模型能够在不同语言间进行有效的知识迁移和问答。此外,MLQA 数据集也为跨语言问答的评估提供了基准,有助于推动该领域的标准化和进步。
衍生相关工作
MLQA 数据集的发布促进了一系列相关研究的开展。例如,基于 MLQA 数据集的多语言问答模型研究、跨语言问答的语义表示研究、以及多语言问答的评测研究等。这些研究不仅推动了多语言问答技术的发展,也为其他相关领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



