facebook/mlqa

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/facebook/mlqa

下载链接

链接失效反馈

资源简介：

MLQA（多语言问答）数据集是一个涵盖多种语言（包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语）的问答数据集。该数据集的任务类别是问答任务，具体任务类型是抽取式问答。数据集的创建者是通过众包方式完成的，数据集的大小在10K到100K之间。数据集的配置信息详细列出了每种语言的训练、验证和测试集的特征、大小和示例数量。

提供机构：

facebook

原始信息汇总

MLQA (MultiLingual Question Answering) 数据集概述

基本信息

名称: MLQA (MultiLingual Question Answering)
语言:
- 英语 (en)
- 德语 (de)
- 西班牙语 (es)
- 阿拉伯语 (ar)
- 中文 (zh)
- 越南语 (vi)
- 印地语 (hi)
许可证: CC-BY-SA-3.0
数据来源: 原始数据
数据规模: 10K<n<100K
数据创建者: 众包
标注创建者: 众包
多语言性: 多语言
任务类别: 问答
任务ID: 抽取式问答 (extractive-qa)
Papers with Code ID: mlqa

数据集配置信息

配置: mlqa-translate-train.ar

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- train:
  - 字节数: 101227245
  - 样本数: 78058
- validation:
  - 字节数: 13144332
  - 样本数: 9512
下载大小: 63364123
数据集大小: 114371577

配置: mlqa-translate-train.de

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- train:
  - 字节数: 77996825
  - 样本数: 80069
- validation:
  - 字节数: 10322113
  - 样本数: 9927
下载大小: 63364123
数据集大小: 88318938

配置: mlqa-translate-train.vi

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- train:
  - 字节数: 97387431
  - 样本数: 84816
- validation:
  - 字节数: 12731112
  - 样本数: 10356
下载大小: 63364123
数据集大小: 110118543

配置: mlqa-translate-train.zh

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- train:
  - 字节数: 55143547
  - 样本数: 76285
- validation:
  - 字节数: 7418070
  - 样本数: 9568
下载大小: 63364123
数据集大小: 62561617

配置: mlqa-translate-train.es

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- train:
  - 字节数: 80789653
  - 样本数: 81810
- validation:
  - 字节数: 10718376
  - 样本数: 10123
下载大小: 63364123
数据集大小: 91508029

配置: mlqa-translate-train.hi

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- train:
  - 字节数: 168117671
  - 样本数: 82451
- validation:
  - 字节数: 22422152
  - 样本数: 10253
下载大小: 63364123
数据集大小: 190539823

配置: mlqa-translate-test.ar

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 5484467
  - 样本数: 5335
下载大小: 10075488
数据集大小: 5484467

配置: mlqa-translate-test.de

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 3884332
  - 样本数: 4517
下载大小: 10075488
数据集大小: 3884332

配置: mlqa-translate-test.vi

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 5998327
  - 样本数: 5495
下载大小: 10075488
数据集大小: 5998327

配置: mlqa-translate-test.zh

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 4831704
  - 样本数: 5137
下载大小: 10075488
数据集大小: 4831704

配置: mlqa-translate-test.es

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 3916758
  - 样本数: 5253
下载大小: 10075488
数据集大小: 3916758

配置: mlqa-translate-test.hi

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 4608811
  - 样本数: 4918
下载大小: 10075488
数据集大小: 4608811

配置: mlqa.ar.ar

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 8216837
  - 样本数: 5335
- validation:
  - 字节数: 808830
  - 样本数: 517
下载大小: 75719050
数据集大小: 9025667

配置: mlqa.ar.de

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 2132247
  - 样本数: 1649
- validation:
  - 字节数: 358554
  - 样本数: 207
下载大小: 75719050
数据集大小: 2490801

配置: mlqa.ar.vi

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 3235363
  - 样本数: 2047
- validation:
  - 字节数: 283834
  - 样本数: 163
下载大小: 75719050
数据集大小: 3519197

配置: mlqa.ar.zh

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 3175660
  - 样本数: 1912
- validation:
  - 字节数: 334016
  - 样本数: 188
下载大小: 75719050
数据集大小: 3509676

配置: mlqa.ar.en

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 8074057
  - 样本数: 5335
- validation:
  - 字节数: 794775
  - 样本数: 517
下载大小: 75719050
数据集大小: 8868832

配置: mlqa.ar.es

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 2981237
  - 样本数: 1978
- validation:
  - 字节数: 223188
  - 样本数: 161
下载大小: 75719050
数据集大小: 3204425

配置: mlqa.ar.hi

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 2993225
  - 样本数: 1831
- validation:
  - 字节数: 276727
  - 样本数: 186
下载大小: 75719050
数据集大小: 3269952

配置: mlqa.de.ar

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 1587005
  - 样本数: 1649
- validation:
  - 字节数: 195822
  - 样本数: 207
下载大小: 75719050
数据集大小: 1782827

配置: mlqa.de.de

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 4274496
  - 样本数: 4517
- validation:
  - 字节数: 477366
  - 样本数: 512
下载大小: 75719050
数据集大小: 4751862

配置: mlqa.de.vi

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 1654540
  - 样本数: 1675
- validation:
  - 字节数: 211985
  - 样本数: 182
下载大小: 75719050
数据集大小: 1866525

配置: mlqa.de.zh

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 1645937
  - 样本数: 1621
- validation:
  - 字节数: 180114
  - 样本数: 190
下载大小: 75719050
数据集大小: 1826051

配置: mlqa.de.en

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 4251153
  - 样本数: 4517
- validation:
  - 字节数: 474863
  - 样本数: 512
下载大小: 75719050
数据集大小: 4726016

配置: mlqa.de.es

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 1678176
  - 样本数: 1776
- validation:
  - 字节数: 166193
  - 样本数: 196
下载大小: 75719050
数据集大小: 1844369

配置: mlqa.de.hi

特征:
- context: string
- question: string
- answers:
  - answer_start: int32
  - text: string
- id: string
分割:
- test:
  - 字节数: 1343983
  - 样本数: 1430
- validation:
  - 字节数: 15067

搜集汇总

数据集介绍

构建方式

MLQA数据集的构建过程严谨且精细。该数据集由Facebook AI团队创建，旨在评估多语言问答模型的能力。数据集的构建涉及从原始数据中提取问答对，并确保这些问答对在多种语言中均有对应。构建过程中，使用了众包的方式进行语言创建和标注，确保了数据集的多样性和覆盖范围。

特点

MLQA数据集具有以下特点：首先，它是多语言的，涵盖了英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语等七种语言，能够帮助研究人员评估多语言问答模型在不同语言环境下的表现。其次，数据集包含了训练集和验证集，以及测试集，方便研究人员进行模型的训练、验证和测试。此外，数据集采用了CC BY-SA 3.0许可证，允许研究人员在遵守协议的前提下自由使用和分享。

使用方法

使用MLQA数据集的方法如下：首先，研究人员需要从HuggingFace网站下载所需的语言版本的数据集。然后，根据数据集的配置文件，将数据集加载到模型中进行训练或测试。在训练过程中，研究人员可以利用训练集对模型进行训练，并使用验证集来评估模型的性能。在测试过程中，研究人员可以使用测试集来评估模型在实际应用中的表现。需要注意的是，由于数据集是多语言的，因此在处理过程中需要根据不同的语言进行相应的处理。

背景与挑战

背景概述

MLQA（MultiLingual Question Answering）数据集是在多语言问答系统领域的一项重要研究，旨在解决跨语言信息检索与问答的问题。该数据集由Facebook于2018年创建，涉及七种语言：英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语。MLQA的核心研究问题是提高多语言问答系统的准确性和效率，使其能够处理不同语言和文化背景下的问答任务。MLQA数据集对相关领域的影响力在于，它为多语言问答研究提供了一个大规模、高质量的数据集，促进了多语言问答系统的开发和评估，推动了该领域的快速发展。

当前挑战

MLQA数据集在构建过程中面临的主要挑战包括：1) 跨语言信息的处理与理解；2) 不同语言之间语义的差异与一致性；3) 大规模数据集的构建与维护。此外，MLQA数据集在应用过程中也面临一些挑战，如：1) 如何提高多语言问答系统的准确性和鲁棒性；2) 如何更好地处理跨语言问答中的歧义和模糊性；3) 如何应对不同文化背景下的问答任务。这些挑战需要研究者们在算法设计、模型训练和系统评估等方面进行深入研究，以推动多语言问答系统的发展。

常用场景

经典使用场景

MLQA 数据集在多语言问答系统中扮演了重要的角色。该数据集支持多种语言，包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语，使得研究人员能够在不同语言环境中进行模型训练和评估。其经典的使用场景包括但不限于：训练多语言问答模型、跨语言信息检索、以及多语言知识图谱构建等。

解决学术问题

MLQA 数据集的创建解决了多语言问答领域中数据稀缺的问题，为研究者提供了大量的多语言问答对。该数据集的发布促进了多语言问答技术的发展，使得模型能够在不同语言间进行有效的知识迁移和问答。此外，MLQA 数据集也为跨语言问答的评估提供了基准，有助于推动该领域的标准化和进步。

衍生相关工作

MLQA 数据集的发布促进了一系列相关研究的开展。例如，基于 MLQA 数据集的多语言问答模型研究、跨语言问答的语义表示研究、以及多语言问答的评测研究等。这些研究不仅推动了多语言问答技术的发展，也为其他相关领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集