five

facebook/mlqa

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/facebook/mlqa
下载链接
链接失效反馈
资源简介:
MLQA(多语言问答)数据集是一个涵盖多种语言(包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的问答数据集。该数据集的任务类别是问答任务,具体任务类型是抽取式问答。数据集的创建者是通过众包方式完成的,数据集的大小在10K到100K之间。数据集的配置信息详细列出了每种语言的训练、验证和测试集的特征、大小和示例数量。
提供机构:
facebook
原始信息汇总

MLQA (MultiLingual Question Answering) 数据集概述

基本信息

  • 名称: MLQA (MultiLingual Question Answering)
  • 语言:
    • 英语 (en)
    • 德语 (de)
    • 西班牙语 (es)
    • 阿拉伯语 (ar)
    • 中文 (zh)
    • 越南语 (vi)
    • 印地语 (hi)
  • 许可证: CC-BY-SA-3.0
  • 数据来源: 原始数据
  • 数据规模: 10K<n<100K
  • 数据创建者: 众包
  • 标注创建者: 众包
  • 多语言性: 多语言
  • 任务类别: 问答
  • 任务ID: 抽取式问答 (extractive-qa)
  • Papers with Code ID: mlqa

数据集配置信息

配置: mlqa-translate-train.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 101227245
      • 样本数: 78058
    • validation:
      • 字节数: 13144332
      • 样本数: 9512
  • 下载大小: 63364123
  • 数据集大小: 114371577

配置: mlqa-translate-train.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 77996825
      • 样本数: 80069
    • validation:
      • 字节数: 10322113
      • 样本数: 9927
  • 下载大小: 63364123
  • 数据集大小: 88318938

配置: mlqa-translate-train.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 97387431
      • 样本数: 84816
    • validation:
      • 字节数: 12731112
      • 样本数: 10356
  • 下载大小: 63364123
  • 数据集大小: 110118543

配置: mlqa-translate-train.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 55143547
      • 样本数: 76285
    • validation:
      • 字节数: 7418070
      • 样本数: 9568
  • 下载大小: 63364123
  • 数据集大小: 62561617

配置: mlqa-translate-train.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 80789653
      • 样本数: 81810
    • validation:
      • 字节数: 10718376
      • 样本数: 10123
  • 下载大小: 63364123
  • 数据集大小: 91508029

配置: mlqa-translate-train.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 168117671
      • 样本数: 82451
    • validation:
      • 字节数: 22422152
      • 样本数: 10253
  • 下载大小: 63364123
  • 数据集大小: 190539823

配置: mlqa-translate-test.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 5484467
      • 样本数: 5335
  • 下载大小: 10075488
  • 数据集大小: 5484467

配置: mlqa-translate-test.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3884332
      • 样本数: 4517
  • 下载大小: 10075488
  • 数据集大小: 3884332

配置: mlqa-translate-test.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 5998327
      • 样本数: 5495
  • 下载大小: 10075488
  • 数据集大小: 5998327

配置: mlqa-translate-test.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4831704
      • 样本数: 5137
  • 下载大小: 10075488
  • 数据集大小: 4831704

配置: mlqa-translate-test.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3916758
      • 样本数: 5253
  • 下载大小: 10075488
  • 数据集大小: 3916758

配置: mlqa-translate-test.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4608811
      • 样本数: 4918
  • 下载大小: 10075488
  • 数据集大小: 4608811

配置: mlqa.ar.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 8216837
      • 样本数: 5335
    • validation:
      • 字节数: 808830
      • 样本数: 517
  • 下载大小: 75719050
  • 数据集大小: 9025667

配置: mlqa.ar.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2132247
      • 样本数: 1649
    • validation:
      • 字节数: 358554
      • 样本数: 207
  • 下载大小: 75719050
  • 数据集大小: 2490801

配置: mlqa.ar.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3235363
      • 样本数: 2047
    • validation:
      • 字节数: 283834
      • 样本数: 163
  • 下载大小: 75719050
  • 数据集大小: 3519197

配置: mlqa.ar.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3175660
      • 样本数: 1912
    • validation:
      • 字节数: 334016
      • 样本数: 188
  • 下载大小: 75719050
  • 数据集大小: 3509676

配置: mlqa.ar.en

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 8074057
      • 样本数: 5335
    • validation:
      • 字节数: 794775
      • 样本数: 517
  • 下载大小: 75719050
  • 数据集大小: 8868832

配置: mlqa.ar.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2981237
      • 样本数: 1978
    • validation:
      • 字节数: 223188
      • 样本数: 161
  • 下载大小: 75719050
  • 数据集大小: 3204425

配置: mlqa.ar.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2993225
      • 样本数: 1831
    • validation:
      • 字节数: 276727
      • 样本数: 186
  • 下载大小: 75719050
  • 数据集大小: 3269952

配置: mlqa.de.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1587005
      • 样本数: 1649
    • validation:
      • 字节数: 195822
      • 样本数: 207
  • 下载大小: 75719050
  • 数据集大小: 1782827

配置: mlqa.de.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4274496
      • 样本数: 4517
    • validation:
      • 字节数: 477366
      • 样本数: 512
  • 下载大小: 75719050
  • 数据集大小: 4751862

配置: mlqa.de.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1654540
      • 样本数: 1675
    • validation:
      • 字节数: 211985
      • 样本数: 182
  • 下载大小: 75719050
  • 数据集大小: 1866525

配置: mlqa.de.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1645937
      • 样本数: 1621
    • validation:
      • 字节数: 180114
      • 样本数: 190
  • 下载大小: 75719050
  • 数据集大小: 1826051

配置: mlqa.de.en

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4251153
      • 样本数: 4517
    • validation:
      • 字节数: 474863
      • 样本数: 512
  • 下载大小: 75719050
  • 数据集大小: 4726016

配置: mlqa.de.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1678176
      • 样本数: 1776
    • validation:
      • 字节数: 166193
      • 样本数: 196
  • 下载大小: 75719050
  • 数据集大小: 1844369

配置: mlqa.de.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1343983
      • 样本数: 1430
    • validation:
      • 字节数: 15067
搜集汇总
数据集介绍
main_image_url
构建方式
MLQA数据集的构建过程严谨且精细。该数据集由Facebook AI团队创建,旨在评估多语言问答模型的能力。数据集的构建涉及从原始数据中提取问答对,并确保这些问答对在多种语言中均有对应。构建过程中,使用了众包的方式进行语言创建和标注,确保了数据集的多样性和覆盖范围。
特点
MLQA数据集具有以下特点:首先,它是多语言的,涵盖了英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语等七种语言,能够帮助研究人员评估多语言问答模型在不同语言环境下的表现。其次,数据集包含了训练集和验证集,以及测试集,方便研究人员进行模型的训练、验证和测试。此外,数据集采用了CC BY-SA 3.0许可证,允许研究人员在遵守协议的前提下自由使用和分享。
使用方法
使用MLQA数据集的方法如下:首先,研究人员需要从HuggingFace网站下载所需的语言版本的数据集。然后,根据数据集的配置文件,将数据集加载到模型中进行训练或测试。在训练过程中,研究人员可以利用训练集对模型进行训练,并使用验证集来评估模型的性能。在测试过程中,研究人员可以使用测试集来评估模型在实际应用中的表现。需要注意的是,由于数据集是多语言的,因此在处理过程中需要根据不同的语言进行相应的处理。
背景与挑战
背景概述
MLQA(MultiLingual Question Answering)数据集是在多语言问答系统领域的一项重要研究,旨在解决跨语言信息检索与问答的问题。该数据集由Facebook于2018年创建,涉及七种语言:英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语。MLQA的核心研究问题是提高多语言问答系统的准确性和效率,使其能够处理不同语言和文化背景下的问答任务。MLQA数据集对相关领域的影响力在于,它为多语言问答研究提供了一个大规模、高质量的数据集,促进了多语言问答系统的开发和评估,推动了该领域的快速发展。
当前挑战
MLQA数据集在构建过程中面临的主要挑战包括:1) 跨语言信息的处理与理解;2) 不同语言之间语义的差异与一致性;3) 大规模数据集的构建与维护。此外,MLQA数据集在应用过程中也面临一些挑战,如:1) 如何提高多语言问答系统的准确性和鲁棒性;2) 如何更好地处理跨语言问答中的歧义和模糊性;3) 如何应对不同文化背景下的问答任务。这些挑战需要研究者们在算法设计、模型训练和系统评估等方面进行深入研究,以推动多语言问答系统的发展。
常用场景
经典使用场景
MLQA 数据集在多语言问答系统中扮演了重要的角色。该数据集支持多种语言,包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语,使得研究人员能够在不同语言环境中进行模型训练和评估。其经典的使用场景包括但不限于:训练多语言问答模型、跨语言信息检索、以及多语言知识图谱构建等。
解决学术问题
MLQA 数据集的创建解决了多语言问答领域中数据稀缺的问题,为研究者提供了大量的多语言问答对。该数据集的发布促进了多语言问答技术的发展,使得模型能够在不同语言间进行有效的知识迁移和问答。此外,MLQA 数据集也为跨语言问答的评估提供了基准,有助于推动该领域的标准化和进步。
衍生相关工作
MLQA 数据集的发布促进了一系列相关研究的开展。例如,基于 MLQA 数据集的多语言问答模型研究、跨语言问答的语义表示研究、以及多语言问答的评测研究等。这些研究不仅推动了多语言问答技术的发展,也为其他相关领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作