five

TheTung/mlqa

收藏
Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheTung/mlqa
下载链接
链接失效反馈
官方服务:
资源简介:
MLQA(多语言问答数据集)是一个支持多种语言(如英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的多语言问答数据集。该数据集的任务类别是问答任务,具体是抽取式问答。数据集的创建者是通过众包方式进行的,数据集的大小在10K到100K之间。数据集的特征包括上下文、问题、答案(包括答案起始位置和文本)以及唯一的ID。数据集分为训练集、验证集和测试集,每个语言都有对应的配置。

MLQA(多语言问答数据集)是一个支持多种语言(如英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的多语言问答数据集。该数据集的任务类别是问答任务,具体是抽取式问答。数据集的创建者是通过众包方式进行的,数据集的大小在10K到100K之间。数据集的特征包括上下文、问题、答案(包括答案起始位置和文本)以及唯一的ID。数据集分为训练集、验证集和测试集,每个语言都有对应的配置。
提供机构:
TheTung
原始信息汇总

MLQA (MultiLingual Question Answering) 数据集概述

基本信息

  • 名称: MLQA (MultiLingual Question Answering)
  • 语言:
    • 英语 (en)
    • 德语 (de)
    • 西班牙语 (es)
    • 阿拉伯语 (ar)
    • 中文 (zh)
    • 越南语 (vi)
    • 印地语 (hi)
  • 许可证: CC-BY-SA-3.0
  • 数据来源: 原始数据
  • 数据规模: 10K<n<100K
  • 数据创建者: 众包
  • 标注创建者: 众包
  • 多语言性: 多语言
  • 任务类别: 问答
  • 任务ID: 抽取式问答 (extractive-qa)
  • PapersWithCode ID: mlqa

数据集配置详情

配置: mlqa-translate-train.ar

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • train:
      • 字节数: 101227245
      • 样本数: 78058
    • validation:
      • 字节数: 13144332
      • 样本数: 9512
  • 下载大小: 63364123
  • 数据集大小: 114371577

配置: mlqa-translate-train.de

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • train:
      • 字节数: 77996825
      • 样本数: 80069
    • validation:
      • 字节数: 10322113
      • 样本数: 9927
  • 下载大小: 63364123
  • 数据集大小: 88318938

配置: mlqa-translate-train.vi

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • train:
      • 字节数: 97387431
      • 样本数: 84816
    • validation:
      • 字节数: 12731112
      • 样本数: 10356
  • 下载大小: 63364123
  • 数据集大小: 110118543

配置: mlqa-translate-train.zh

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • train:
      • 字节数: 55143547
      • 样本数: 76285
    • validation:
      • 字节数: 7418070
      • 样本数: 9568
  • 下载大小: 63364123
  • 数据集大小: 62561617

配置: mlqa-translate-train.es

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • train:
      • 字节数: 80789653
      • 样本数: 81810
    • validation:
      • 字节数: 10718376
      • 样本数: 10123
  • 下载大小: 63364123
  • 数据集大小: 91508029

配置: mlqa-translate-train.hi

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • train:
      • 字节数: 168117671
      • 样本数: 82451
    • validation:
      • 字节数: 22422152
      • 样本数: 10253
  • 下载大小: 63364123
  • 数据集大小: 190539823

配置: mlqa-translate-test.ar

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 5484467
      • 样本数: 5335
  • 下载大小: 10075488
  • 数据集大小: 5484467

配置: mlqa-translate-test.de

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 3884332
      • 样本数: 4517
  • 下载大小: 10075488
  • 数据集大小: 3884332

配置: mlqa-translate-test.vi

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 5998327
      • 样本数: 5495
  • 下载大小: 10075488
  • 数据集大小: 5998327

配置: mlqa-translate-test.zh

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 4831704
      • 样本数: 5137
  • 下载大小: 10075488
  • 数据集大小: 4831704

配置: mlqa-translate-test.es

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 3916758
      • 样本数: 5253
  • 下载大小: 10075488
  • 数据集大小: 3916758

配置: mlqa-translate-test.hi

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 4608811
      • 样本数: 4918
  • 下载大小: 10075488
  • 数据集大小: 4608811

配置: mlqa.ar.ar

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 8216837
      • 样本数: 5335
    • validation:
      • 字节数: 808830
      • 样本数: 517
  • 下载大小: 75719050
  • 数据集大小: 9025667

配置: mlqa.ar.de

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 2132247
      • 样本数: 1649
    • validation:
      • 字节数: 358554
      • 样本数: 207
  • 下载大小: 75719050
  • 数据集大小: 2490801

配置: mlqa.ar.vi

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 3235363
      • 样本数: 2047
    • validation:
      • 字节数: 283834
      • 样本数: 163
  • 下载大小: 75719050
  • 数据集大小: 3519197

配置: mlqa.ar.zh

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 3175660
      • 样本数: 1912
    • validation:
      • 字节数: 334016
      • 样本数: 188
  • 下载大小: 75719050
  • 数据集大小: 3509676

配置: mlqa.ar.en

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 8074057
      • 样本数: 5335
    • validation:
      • 字节数: 794775
      • 样本数: 517
  • 下载大小: 75719050
  • 数据集大小: 8868832

配置: mlqa.ar.es

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 2981237
      • 样本数: 1978
    • validation:
      • 字节数: 223188
      • 样本数: 161
  • 下载大小: 75719050
  • 数据集大小: 3204425

配置: mlqa.ar.hi

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 2993225
      • 样本数: 1831
    • validation:
      • 字节数: 276727
      • 样本数: 186
  • 下载大小: 75719050
  • 数据集大小: 3269952

配置: mlqa.de.ar

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 1587005
      • 样本数: 1649
    • validation:
      • 字节数: 195822
      • 样本数: 207
  • 下载大小: 75719050
  • 数据集大小: 1782827

配置: mlqa.de.de

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 4274496
      • 样本数: 4517
    • validation:
      • 字节数: 477366
      • 样本数: 512
  • 下载大小: 75719050
  • 数据集大小: 4751862

配置: mlqa.de.vi

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 1654540
      • 样本数: 1675
    • validation:
      • 字节数: 211985
      • 样本数: 182
  • 下载大小: 75719050
  • 数据集大小: 1866525

配置: mlqa.de.zh

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
    • test:
      • 字节数: 1645937
      • 样本数: 1621
    • validation:
      • 字节数: 180114
      • 样本数: 190
  • 下载大小: 75719050
  • 数据集大小: 1826051

配置: mlqa.de.en

  • 特征:
    • context: 字符串
    • question: 字符串
    • answers:
      • answer_start: 32位整数
      • text: 字符串
    • id: 字符串
  • 分割:
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作