five

facebook/mlqa

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/facebook/mlqa
下载链接
链接失效反馈
官方服务:
资源简介:
MLQA(多语言问答)数据集是一个涵盖多种语言(包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的问答数据集。该数据集的任务类别是问答任务,具体任务类型是抽取式问答。数据集的创建者是通过众包方式完成的,数据集的大小在10K到100K之间。数据集的配置信息详细列出了每种语言的训练、验证和测试集的特征、大小和示例数量。

MLQA (Multilingual Question Answering) dataset is a multilingual question answering dataset that covers multiple languages including English, German, Spanish, Arabic, Chinese, Vietnamese and Hindi. Its task category is question answering, with the specific task type being extractive question answering. The dataset was constructed via crowdsourcing, and its total size ranges from 10K to 100K. The configuration details of the dataset comprehensively list the features, sizes and sample counts of the training, validation and test sets for each language.
提供机构:
facebook
原始信息汇总

MLQA (MultiLingual Question Answering) 数据集概述

基本信息

  • 名称: MLQA (MultiLingual Question Answering)
  • 语言:
    • 英语 (en)
    • 德语 (de)
    • 西班牙语 (es)
    • 阿拉伯语 (ar)
    • 中文 (zh)
    • 越南语 (vi)
    • 印地语 (hi)
  • 许可证: CC-BY-SA-3.0
  • 数据来源: 原始数据
  • 数据规模: 10K<n<100K
  • 数据创建者: 众包
  • 标注创建者: 众包
  • 多语言性: 多语言
  • 任务类别: 问答
  • 任务ID: 抽取式问答 (extractive-qa)
  • Papers with Code ID: mlqa

数据集配置信息

配置: mlqa-translate-train.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 101227245
      • 样本数: 78058
    • validation:
      • 字节数: 13144332
      • 样本数: 9512
  • 下载大小: 63364123
  • 数据集大小: 114371577

配置: mlqa-translate-train.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 77996825
      • 样本数: 80069
    • validation:
      • 字节数: 10322113
      • 样本数: 9927
  • 下载大小: 63364123
  • 数据集大小: 88318938

配置: mlqa-translate-train.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 97387431
      • 样本数: 84816
    • validation:
      • 字节数: 12731112
      • 样本数: 10356
  • 下载大小: 63364123
  • 数据集大小: 110118543

配置: mlqa-translate-train.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 55143547
      • 样本数: 76285
    • validation:
      • 字节数: 7418070
      • 样本数: 9568
  • 下载大小: 63364123
  • 数据集大小: 62561617

配置: mlqa-translate-train.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 80789653
      • 样本数: 81810
    • validation:
      • 字节数: 10718376
      • 样本数: 10123
  • 下载大小: 63364123
  • 数据集大小: 91508029

配置: mlqa-translate-train.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 168117671
      • 样本数: 82451
    • validation:
      • 字节数: 22422152
      • 样本数: 10253
  • 下载大小: 63364123
  • 数据集大小: 190539823

配置: mlqa-translate-test.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 5484467
      • 样本数: 5335
  • 下载大小: 10075488
  • 数据集大小: 5484467

配置: mlqa-translate-test.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3884332
      • 样本数: 4517
  • 下载大小: 10075488
  • 数据集大小: 3884332

配置: mlqa-translate-test.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 5998327
      • 样本数: 5495
  • 下载大小: 10075488
  • 数据集大小: 5998327

配置: mlqa-translate-test.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4831704
      • 样本数: 5137
  • 下载大小: 10075488
  • 数据集大小: 4831704

配置: mlqa-translate-test.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3916758
      • 样本数: 5253
  • 下载大小: 10075488
  • 数据集大小: 3916758

配置: mlqa-translate-test.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4608811
      • 样本数: 4918
  • 下载大小: 10075488
  • 数据集大小: 4608811

配置: mlqa.ar.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 8216837
      • 样本数: 5335
    • validation:
      • 字节数: 808830
      • 样本数: 517
  • 下载大小: 75719050
  • 数据集大小: 9025667

配置: mlqa.ar.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2132247
      • 样本数: 1649
    • validation:
      • 字节数: 358554
      • 样本数: 207
  • 下载大小: 75719050
  • 数据集大小: 2490801

配置: mlqa.ar.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3235363
      • 样本数: 2047
    • validation:
      • 字节数: 283834
      • 样本数: 163
  • 下载大小: 75719050
  • 数据集大小: 3519197

配置: mlqa.ar.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3175660
      • 样本数: 1912
    • validation:
      • 字节数: 334016
      • 样本数: 188
  • 下载大小: 75719050
  • 数据集大小: 3509676

配置: mlqa.ar.en

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 8074057
      • 样本数: 5335
    • validation:
      • 字节数: 794775
      • 样本数: 517
  • 下载大小: 75719050
  • 数据集大小: 8868832

配置: mlqa.ar.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2981237
      • 样本数: 1978
    • validation:
      • 字节数: 223188
      • 样本数: 161
  • 下载大小: 75719050
  • 数据集大小: 3204425

配置: mlqa.ar.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2993225
      • 样本数: 1831
    • validation:
      • 字节数: 276727
      • 样本数: 186
  • 下载大小: 75719050
  • 数据集大小: 3269952

配置: mlqa.de.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1587005
      • 样本数: 1649
    • validation:
      • 字节数: 195822
      • 样本数: 207
  • 下载大小: 75719050
  • 数据集大小: 1782827

配置: mlqa.de.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4274496
      • 样本数: 4517
    • validation:
      • 字节数: 477366
      • 样本数: 512
  • 下载大小: 75719050
  • 数据集大小: 4751862

配置: mlqa.de.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1654540
      • 样本数: 1675
    • validation:
      • 字节数: 211985
      • 样本数: 182
  • 下载大小: 75719050
  • 数据集大小: 1866525

配置: mlqa.de.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1645937
      • 样本数: 1621
    • validation:
      • 字节数: 180114
      • 样本数: 190
  • 下载大小: 75719050
  • 数据集大小: 1826051

配置: mlqa.de.en

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4251153
      • 样本数: 4517
    • validation:
      • 字节数: 474863
      • 样本数: 512
  • 下载大小: 75719050
  • 数据集大小: 4726016

配置: mlqa.de.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1678176
      • 样本数: 1776
    • validation:
      • 字节数: 166193
      • 样本数: 196
  • 下载大小: 75719050
  • 数据集大小: 1844369

配置: mlqa.de.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1343983
      • 样本数: 1430
    • validation:
      • 字节数: 15067
搜集汇总
数据集介绍
main_image_url
构建方式
MLQA数据集的构建过程严谨且精细。该数据集由Facebook AI团队创建,旨在评估多语言问答模型的能力。数据集的构建涉及从原始数据中提取问答对,并确保这些问答对在多种语言中均有对应。构建过程中,使用了众包的方式进行语言创建和标注,确保了数据集的多样性和覆盖范围。
特点
MLQA数据集具有以下特点:首先,它是多语言的,涵盖了英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语等七种语言,能够帮助研究人员评估多语言问答模型在不同语言环境下的表现。其次,数据集包含了训练集和验证集,以及测试集,方便研究人员进行模型的训练、验证和测试。此外,数据集采用了CC BY-SA 3.0许可证,允许研究人员在遵守协议的前提下自由使用和分享。
使用方法
使用MLQA数据集的方法如下:首先,研究人员需要从HuggingFace网站下载所需的语言版本的数据集。然后,根据数据集的配置文件,将数据集加载到模型中进行训练或测试。在训练过程中,研究人员可以利用训练集对模型进行训练,并使用验证集来评估模型的性能。在测试过程中,研究人员可以使用测试集来评估模型在实际应用中的表现。需要注意的是,由于数据集是多语言的,因此在处理过程中需要根据不同的语言进行相应的处理。
背景与挑战
背景概述
MLQA(MultiLingual Question Answering)数据集是在多语言问答系统领域的一项重要研究,旨在解决跨语言信息检索与问答的问题。该数据集由Facebook于2018年创建,涉及七种语言:英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语。MLQA的核心研究问题是提高多语言问答系统的准确性和效率,使其能够处理不同语言和文化背景下的问答任务。MLQA数据集对相关领域的影响力在于,它为多语言问答研究提供了一个大规模、高质量的数据集,促进了多语言问答系统的开发和评估,推动了该领域的快速发展。
当前挑战
MLQA数据集在构建过程中面临的主要挑战包括:1) 跨语言信息的处理与理解;2) 不同语言之间语义的差异与一致性;3) 大规模数据集的构建与维护。此外,MLQA数据集在应用过程中也面临一些挑战,如:1) 如何提高多语言问答系统的准确性和鲁棒性;2) 如何更好地处理跨语言问答中的歧义和模糊性;3) 如何应对不同文化背景下的问答任务。这些挑战需要研究者们在算法设计、模型训练和系统评估等方面进行深入研究,以推动多语言问答系统的发展。
常用场景
经典使用场景
MLQA 数据集在多语言问答系统中扮演了重要的角色。该数据集支持多种语言,包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语,使得研究人员能够在不同语言环境中进行模型训练和评估。其经典的使用场景包括但不限于:训练多语言问答模型、跨语言信息检索、以及多语言知识图谱构建等。
解决学术问题
MLQA 数据集的创建解决了多语言问答领域中数据稀缺的问题,为研究者提供了大量的多语言问答对。该数据集的发布促进了多语言问答技术的发展,使得模型能够在不同语言间进行有效的知识迁移和问答。此外,MLQA 数据集也为跨语言问答的评估提供了基准,有助于推动该领域的标准化和进步。
衍生相关工作
MLQA 数据集的发布促进了一系列相关研究的开展。例如,基于 MLQA 数据集的多语言问答模型研究、跨语言问答的语义表示研究、以及多语言问答的评测研究等。这些研究不仅推动了多语言问答技术的发展,也为其他相关领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作