AkshitaS/facebook_mlqa_plus
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/AkshitaS/facebook_mlqa_plus
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-3.0
configs:
- config_name: ara_Arab
data_files:
- split: validation
path: data/ara_Arab/validation*
- split: test
path: data/ara_Arab/test*
- config_name: deu_Latn
data_files:
- split: validation
path: data/deu_Latn/validation*
- split: test
path: data/deu_Latn/test*
- config_name: eng_Latn
data_files:
- split: validation
path: data/eng_Latn/validation*
- split: test
path: data/eng_Latn/test*
- config_name: hin_Deva
data_files:
- split: validation
path: data/hin_Deva/validation*
- split: test
path: data/hin_Deva/test*
- config_name: hin_Latn
data_files:
- split: validation
path: data/hin_Latn/validation*
- split: test
path: data/hin_Latn/test*
- config_name: spa_Latn
data_files:
- split: validation
path: data/spa_Latn/validation*
- split: test
path: data/spa_Latn/test*
- config_name: vie_Latn
data_files:
- split: validation
path: data/vie_Latn/validation*
- split: test
path: data/vie_Latn/test*
- config_name: zho_Hans
data_files:
- split: validation
path: data/zho_Hans/validation*
- split: test
path: data/zho_Hans/test*
task_categories:
- question-answering
language:
- en
- hi
- ar
- de
- es
- vi
- zh
---
**Source Dataset**
- Link: [facebook/mlqa](https://huggingface.co/datasets/facebook/mlqa)
- Revision: `397ed406c1a7902140303e7faf60fff35b58d285`
**MLQA**
MLQA (MultiLingual Question Answering) is a benchmark dataset for evaluating cross-lingual question answering performance.
MLQA consists of over 5K extractive QA instances (12K in English) in SQuAD format in seven languages - English, Arabic,
German, Spanish, Hindi, Vietnamese and Simplified Chinese. MLQA is highly parallel, with QA instances parallel between
4 different languages on average.
**MLQA Plus**
MLQA Plus additionally has hin_Latn data generated using indictrans library.
许可证:CC-BY-SA-3.0
配置项:
- 配置名称:ara_Arab,对应数据文件拆分如下:
- 验证集:路径为 data/ara_Arab/validation*
- 测试集:路径为 data/ara_Arab/test*
- 配置名称:deu_Latn,对应数据文件拆分如下:
- 验证集:路径为 data/deu_Latn/validation*
- 测试集:路径为 data/deu_Latn/test*
- 配置名称:eng_Latn,对应数据文件拆分如下:
- 验证集:路径为 data/eng_Latn/validation*
- 测试集:路径为 data/eng_Latn/test*
- 配置名称:hin_Deva,对应数据文件拆分如下:
- 验证集:路径为 data/hin_Deva/validation*
- 测试集:路径为 data/hin_Deva/test*
- 配置名称:hin_Latn,对应数据文件拆分如下:
- 验证集:路径为 data/hin_Latn/validation*
- 测试集:路径为 data/hin_Latn/test*
- 配置名称:spa_Latn,对应数据文件拆分如下:
- 验证集:路径为 data/spa_Latn/validation*
- 测试集:路径为 data/spa_Latn/test*
- 配置名称:vie_Latn,对应数据文件拆分如下:
- 验证集:路径为 data/vie_Latn/validation*
- 测试集:路径为 data/vie_Latn/test*
- 配置名称:zho_Hans,对应数据文件拆分如下:
- 验证集:路径为 data/zho_Hans/validation*
- 测试集:路径为 data/zho_Hans/test*
任务类别:问答(question-answering)
语言:英语(en)、印地语(hi)、阿拉伯语(ar)、德语(de)、西班牙语(es)、越南语(vi)、简体中文(zh)
**源数据集**
- 链接:[facebook/mlqa](https://huggingface.co/datasets/facebook/mlqa)
- 修订版本:`397ed406c1a7902140303e7faf60fff35b58d285`
**MLQA**
MLQA(多语言问答,MultiLingual Question Answering)是用于评估跨语言问答性能的基准数据集。MLQA包含7种语言下超5000个抽取式问答(extractive QA)实例(英语实例达12000个),格式遵循SQuAD标准,涵盖语言为英语、阿拉伯语、德语、西班牙语、印地语、越南语及简体中文。MLQA具备高度并行性,平均每个问答实例可在4种不同语言间实现并行对齐。
**MLQA Plus**
MLQA Plus 额外包含通过indictrans库生成的hin_Latn格式数据。
提供机构:
AkshitaS
原始信息汇总
数据集概述
数据集名称
MLQA (MultiLingual Question Answering)
数据集描述
MLQA 是一个用于评估跨语言问答性能的基准数据集。该数据集包含超过 5K 的抽取式问答实例(其中 12K 为英文),采用 SQuAD 格式,涵盖七种语言:英语、阿拉伯语、德语、西班牙语、印地语、越南语和简体中文。MLQA 具有高度并行性,平均每个问答实例在 4 种不同语言之间并行。
数据集配置
- ara_Arab:
- 验证集路径:
data/ara_Arab/validation* - 测试集路径:
data/ara_Arab/test*
- 验证集路径:
- deu_Latn:
- 验证集路径:
data/deu_Latn/validation* - 测试集路径:
data/deu_Latn/test*
- 验证集路径:
- eng_Latn:
- 验证集路径:
data/eng_Latn/validation* - 测试集路径:
data/eng_Latn/test*
- 验证集路径:
- hin_Deva:
- 验证集路径:
data/hin_Deva/validation* - 测试集路径:
data/hin_Deva/test*
- 验证集路径:
- hin_Latn:
- 验证集路径:
data/hin_Latn/validation* - 测试集路径:
data/hin_Latn/test*
- 验证集路径:
- spa_Latn:
- 验证集路径:
data/spa_Latn/validation* - 测试集路径:
data/spa_Latn/test*
- 验证集路径:
- vie_Latn:
- 验证集路径:
data/vie_Latn/validation* - 测试集路径:
data/vie_Latn/test*
- 验证集路径:
- zho_Hans:
- 验证集路径:
data/zho_Hans/validation* - 测试集路径:
data/zho_Hans/test*
- 验证集路径:
数据集扩展
MLQA Plus 额外包含使用 indictrans 库生成的 hin_Latn 数据。
任务类别
- 问答
语言
- 英语
- 印地语
- 阿拉伯语
- 德语
- 西班牙语
- 越南语
- 简体中文
许可证
cc-by-sa-3.0
搜集汇总
数据集介绍

构建方式
在跨语言问答研究领域,MLQA Plus数据集基于原始MLQA基准扩展构建。该数据集通过整合多语言平行语料,覆盖英语、阿拉伯语、德语、西班牙语、印地语、越南语及简体中文七种语言,并采用SQuAD格式组织超过五千个抽取式问答实例。特别之处在于,其利用indictrans库生成了印地语的拉丁化变体,增强了语言表征的多样性,为跨语言迁移学习提供了更为丰富的语料基础。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,利用其预定义的验证集与测试集进行模型评估。数据集以语言配置为单位组织,用户可针对特定语言或跨语言任务灵活选取相应子集。在跨语言问答任务中,该数据集常用于测试模型在源语言训练后向目标语言迁移的能力,为多语言自然语言处理系统的开发提供标准化基准。
背景与挑战
背景概述
在跨语言自然语言处理研究蓬勃发展的背景下,多语言问答数据集MLQA应运而生,由Facebook AI研究团队于2019年创建。该数据集旨在评估模型在多种语言间的问答性能,其核心研究问题是解决跨语言信息检索与理解的鸿沟,推动机器在非英语语境下的深度语义理解能力。MLQA覆盖英语、阿拉伯语、德语、西班牙语、印地语、越南语和简体中文七种语言,包含超过五千个抽取式问答实例,以其高度平行对齐的结构,显著促进了跨语言预训练模型的发展,并对全球范围内的多语言人工智能应用产生了深远影响。
当前挑战
MLQA数据集所针对的跨语言问答任务,其核心挑战在于模型需克服语言间的语法、语义及文化差异,实现精准的跨语言信息对齐与答案抽取。具体而言,不同语言在表达习惯和逻辑结构上的多样性,使得模型在迁移学习时容易产生语义漂移或性能下降。在数据集构建过程中,挑战同样显著:确保多语言问答实例间的高度平行性需要耗费大量人力进行精准翻译与对齐校验;此外,为印地语等语言生成拉丁化变体(如hin_Latn)虽扩展了数据形态,但也引入了转写一致性与语言规范性的平衡难题,这些因素共同构成了数据集构建与应用的双重挑战。
常用场景
经典使用场景
在跨语言自然语言处理领域,MLQA Plus数据集作为多语言问答评估的基准工具,其经典使用场景集中于机器阅读理解模型的性能评测。该数据集通过提供高度平行的多语言问答实例,支持研究者对模型在英语、阿拉伯语、德语、西班牙语、印地语、越南语和简体中文等语言间的泛化能力进行系统性检验。尤其在零样本或少样本跨语言迁移学习中,MLQA Plus能够有效衡量模型从源语言到目标语言的语义对齐与知识转移效果,为多语言模型的鲁棒性提供量化依据。
解决学术问题
MLQA Plus数据集主要解决了跨语言问答研究中数据稀缺与评估标准不统一的学术难题。通过构建多语言平行语料,该数据集使研究者能够深入探究语言差异对问答系统性能的影响,并推动跨语言表示学习、语义对齐及迁移学习等核心方向的发展。其意义在于为多语言自然语言处理建立了可复现的评估框架,促进了公平比较,加速了跨语言模型从理论到实践的转化进程,对全球化人工智能应用具有深远影响。
实际应用
在实际应用层面,MLQA Plus数据集为多语言智能助手、跨境信息检索系统及全球化客户服务平台的开发提供了关键支持。基于该数据集训练的模型能够处理不同语言用户的自然语言查询,从多语种文档中精准提取答案,显著提升跨语言信息获取的效率和准确性。例如,在国际新闻聚合、多语言教育工具或跨国企业知识库系统中,此类技术有助于打破语言壁垒,实现信息的无缝流通与共享。
数据集最近研究
最新研究方向
在跨语言问答领域,MLQA Plus数据集凭借其多语言平行语料特性,正推动前沿研究聚焦于低资源语言的表示学习与迁移学习。当前热点探索方向包括利用该数据集的拉丁化印地语变体,结合神经机器翻译与预训练语言模型,以提升非拉丁脚本语言在问答任务中的泛化能力。这一进展不仅促进了语言技术在全球范围内的公平性,也为构建包容性人工智能系统提供了关键评估基准,具有深远的学术与应用价值。
以上内容由遇见数据集搜集并总结生成



