SEACrowd/mlqa

Name: SEACrowd/mlqa
Creator: SEACrowd
Published: 2024-06-24 13:29:43
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/mlqa

下载链接

链接失效反馈

官方服务：

资源简介：

MLQA（多语言问答）是一个用于评估跨语言问答性能的基准数据集。MLQA包含超过5K的抽取式问答实例（英语中有12K），涵盖七种语言：英语、阿拉伯语、德语、西班牙语、印地语、越南语和简体中文。MLQA高度并行，平均每种语言有4种不同语言的并行QA实例。

MLQA (MultiLingual Question Answering) is a benchmark dataset for evaluating cross-lingual question answering performance. MLQA consists of over 5K extractive QA instances (12K in English) in SQuAD format in seven languages - English, Arabic, German, Spanish, Hindi, Vietnamese and Simplified Chinese. MLQA is highly parallel, with QA instances parallel between 4 different languages on average.

提供机构：

SEACrowd

原始信息汇总

Mlqa 数据集概述

数据集简介

MLQA（MultiLingual Question Answering）是一个用于评估跨语言问答性能的基准数据集。该数据集包含超过5K的抽取式问答实例（其中12K为英文），采用SQuAD格式，涵盖七种语言：英语、阿拉伯语、德语、西班牙语、印地语、越南语和简体中文。MLQA具有高度平行性，平均每个问答实例在4种不同语言之间平行。

语言

越南语（vie）

支持的任务

问答（Question Answering）

数据集版本

源版本：1.0.0
SEACrowd版本：2024.06.20

数据集许可证

Creative Commons Attribution Share Alike 3.0 (cc-by-sa-3.0)

引用

若在工作中使用Mlqa数据集，请引用以下文献：

@article{lewis2019mlqa, author={Lewis, Patrick and O{g}uz, Barlas and Rinott, Ruty and Riedel, Sebastian and Schwenk, Holger}, title={MLQA: Evaluating Cross-lingual Extractive Question Answering}, journal={arXiv preprint arXiv:1910.07475}, year={2019} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理领域，构建高质量的多语言问答数据集对于评估模型性能至关重要。MLQA数据集通过从维基百科中选取文章，并采用人工翻译与对齐的方式，构建了涵盖七种语言的平行问答实例。该数据集以SQuAD格式为基础，确保了超过五千个抽取式问答实例的准确性与一致性，平均每个实例在四种语言间保持平行，为跨语言研究提供了坚实的语料基础。

使用方法

利用MLQA数据集进行跨语言问答研究时，用户可通过`datasets`库或`seacrowd`库轻松加载数据。使用`datasets.load_dataset`函数并指定数据集名称即可获取完整实例，而`seacrowd`库则提供更灵活的配置选项，支持按特定子集加载以适配不同实验需求。数据加载后，可直接应用于模型训练与评估，助力研究者深入探索多语言语境下的问答性能。

背景与挑战

背景概述

在自然语言处理领域，跨语言问答研究旨在突破语言壁垒，实现信息的高效跨语言检索与理解。MLQA数据集由Facebook Research团队于2019年创建，核心研究人员包括Patrick Lewis、Barlas Oğuz等，其聚焦于评估跨语言抽取式问答系统的性能。该数据集涵盖英语、阿拉伯语、德语、西班牙语、印地语、越南语及简体中文七种语言，包含超过五千个问答实例，高度平行化的结构为跨语言模型提供了标准化评测基准，显著推动了多语言语义理解技术的发展，并对机器翻译、信息检索等交叉领域产生深远影响。

当前挑战

MLQA数据集致力于解决跨语言抽取式问答这一核心问题，其挑战在于模型需克服语言间的语义差异与结构歧义，准确从非平行语料中定位答案。构建过程中的挑战则体现在多语言数据的高质量对齐与标注上，需确保不同语言版本间问答实例的语义一致性与平行性，同时应对低资源语言数据稀缺及文化语境差异带来的标注复杂性，这些因素共同增加了数据集构建与模型评估的难度。

常用场景

经典使用场景

在跨语言自然语言处理领域，MLQA数据集作为一项基准评估工具，广泛应用于衡量多语言问答系统的性能。其经典使用场景在于为研究者提供了一个高度平行的多语言问答实例集合，涵盖英语、阿拉伯语、德语、西班牙语、印地语、越南语和简体中文七种语言，每个实例平均与四种语言平行对齐。这使得MLQA成为评估模型在跨语言迁移学习、零样本或少样本学习能力方面的理想测试平台，尤其在提取式问答任务中，能够系统检验模型在不同语言间理解与推理的一致性。

解决学术问题

MLQA数据集有效解决了跨语言问答研究中长期存在的评估标准缺失问题。传统上，多语言模型性能评估往往依赖单语数据集，难以准确衡量模型在语言间的泛化能力。MLQA通过构建平行语料，使研究者能够量化模型在源语言与目标语言之间的性能差距，从而深入探究跨语言表示学习、语义对齐及迁移机制等核心学术问题。该数据集推动了多语言预训练模型的发展，为理解语言间知识迁移提供了实证基础。

实际应用

在实际应用层面，MLQA数据集支撑了多语言智能助手、跨语言信息检索系统及全球化客户服务平台的开发。例如，企业可利用基于MLQA训练的模型，构建能够理解并回答多种语言用户提问的自动化系统，显著提升跨国业务中的信息获取效率。在教育领域，该数据集有助于开发多语言学习工具，辅助语言学习者通过问答形式掌握外语知识。此外，在舆情分析、多语言内容审核等场景中，MLQA为系统提供了跨语言理解能力的评估标准。

数据集最近研究