TheTung/mlqa
收藏Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheTung/mlqa
下载链接
链接失效反馈官方服务:
资源简介:
MLQA(多语言问答数据集)是一个支持多种语言(如英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的多语言问答数据集。该数据集的任务类别是问答任务,具体是抽取式问答。数据集的创建者是通过众包方式进行的,数据集的大小在10K到100K之间。数据集的特征包括上下文、问题、答案(包括答案起始位置和文本)以及唯一的ID。数据集分为训练集、验证集和测试集,每个语言都有对应的配置。
MLQA(多语言问答数据集)是一个支持多种语言(如英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的多语言问答数据集。该数据集的任务类别是问答任务,具体是抽取式问答。数据集的创建者是通过众包方式进行的,数据集的大小在10K到100K之间。数据集的特征包括上下文、问题、答案(包括答案起始位置和文本)以及唯一的ID。数据集分为训练集、验证集和测试集,每个语言都有对应的配置。
提供机构:
TheTung
原始信息汇总
MLQA (MultiLingual Question Answering) 数据集概述
基本信息
- 名称: MLQA (MultiLingual Question Answering)
- 语言:
- 英语 (en)
- 德语 (de)
- 西班牙语 (es)
- 阿拉伯语 (ar)
- 中文 (zh)
- 越南语 (vi)
- 印地语 (hi)
- 许可证: CC-BY-SA-3.0
- 数据来源: 原始数据
- 数据规模: 10K<n<100K
- 数据创建者: 众包
- 标注创建者: 众包
- 多语言性: 多语言
- 任务类别: 问答
- 任务ID: 抽取式问答 (extractive-qa)
- PapersWithCode ID: mlqa
数据集配置详情
配置: mlqa-translate-train.ar
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- train:
- 字节数: 101227245
- 样本数: 78058
- validation:
- 字节数: 13144332
- 样本数: 9512
- train:
- 下载大小: 63364123
- 数据集大小: 114371577
配置: mlqa-translate-train.de
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- train:
- 字节数: 77996825
- 样本数: 80069
- validation:
- 字节数: 10322113
- 样本数: 9927
- train:
- 下载大小: 63364123
- 数据集大小: 88318938
配置: mlqa-translate-train.vi
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- train:
- 字节数: 97387431
- 样本数: 84816
- validation:
- 字节数: 12731112
- 样本数: 10356
- train:
- 下载大小: 63364123
- 数据集大小: 110118543
配置: mlqa-translate-train.zh
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- train:
- 字节数: 55143547
- 样本数: 76285
- validation:
- 字节数: 7418070
- 样本数: 9568
- train:
- 下载大小: 63364123
- 数据集大小: 62561617
配置: mlqa-translate-train.es
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- train:
- 字节数: 80789653
- 样本数: 81810
- validation:
- 字节数: 10718376
- 样本数: 10123
- train:
- 下载大小: 63364123
- 数据集大小: 91508029
配置: mlqa-translate-train.hi
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- train:
- 字节数: 168117671
- 样本数: 82451
- validation:
- 字节数: 22422152
- 样本数: 10253
- train:
- 下载大小: 63364123
- 数据集大小: 190539823
配置: mlqa-translate-test.ar
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 5484467
- 样本数: 5335
- test:
- 下载大小: 10075488
- 数据集大小: 5484467
配置: mlqa-translate-test.de
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 3884332
- 样本数: 4517
- test:
- 下载大小: 10075488
- 数据集大小: 3884332
配置: mlqa-translate-test.vi
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 5998327
- 样本数: 5495
- test:
- 下载大小: 10075488
- 数据集大小: 5998327
配置: mlqa-translate-test.zh
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 4831704
- 样本数: 5137
- test:
- 下载大小: 10075488
- 数据集大小: 4831704
配置: mlqa-translate-test.es
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 3916758
- 样本数: 5253
- test:
- 下载大小: 10075488
- 数据集大小: 3916758
配置: mlqa-translate-test.hi
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 4608811
- 样本数: 4918
- test:
- 下载大小: 10075488
- 数据集大小: 4608811
配置: mlqa.ar.ar
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 8216837
- 样本数: 5335
- validation:
- 字节数: 808830
- 样本数: 517
- test:
- 下载大小: 75719050
- 数据集大小: 9025667
配置: mlqa.ar.de
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 2132247
- 样本数: 1649
- validation:
- 字节数: 358554
- 样本数: 207
- test:
- 下载大小: 75719050
- 数据集大小: 2490801
配置: mlqa.ar.vi
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 3235363
- 样本数: 2047
- validation:
- 字节数: 283834
- 样本数: 163
- test:
- 下载大小: 75719050
- 数据集大小: 3519197
配置: mlqa.ar.zh
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 3175660
- 样本数: 1912
- validation:
- 字节数: 334016
- 样本数: 188
- test:
- 下载大小: 75719050
- 数据集大小: 3509676
配置: mlqa.ar.en
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 8074057
- 样本数: 5335
- validation:
- 字节数: 794775
- 样本数: 517
- test:
- 下载大小: 75719050
- 数据集大小: 8868832
配置: mlqa.ar.es
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 2981237
- 样本数: 1978
- validation:
- 字节数: 223188
- 样本数: 161
- test:
- 下载大小: 75719050
- 数据集大小: 3204425
配置: mlqa.ar.hi
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 2993225
- 样本数: 1831
- validation:
- 字节数: 276727
- 样本数: 186
- test:
- 下载大小: 75719050
- 数据集大小: 3269952
配置: mlqa.de.ar
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 1587005
- 样本数: 1649
- validation:
- 字节数: 195822
- 样本数: 207
- test:
- 下载大小: 75719050
- 数据集大小: 1782827
配置: mlqa.de.de
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 4274496
- 样本数: 4517
- validation:
- 字节数: 477366
- 样本数: 512
- test:
- 下载大小: 75719050
- 数据集大小: 4751862
配置: mlqa.de.vi
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 1654540
- 样本数: 1675
- validation:
- 字节数: 211985
- 样本数: 182
- test:
- 下载大小: 75719050
- 数据集大小: 1866525
配置: mlqa.de.zh
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:
- test:
- 字节数: 1645937
- 样本数: 1621
- validation:
- 字节数: 180114
- 样本数: 190
- test:
- 下载大小: 75719050
- 数据集大小: 1826051
配置: mlqa.de.en
- 特征:
- context: 字符串
- question: 字符串
- answers:
- answer_start: 32位整数
- text: 字符串
- id: 字符串
- 分割:



