MultiWikiQA
收藏arXiv2025-09-04 更新2025-09-06 收录
下载链接:
https://hf.co/datasets/wikimedia/wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
MultiWikiQA是一个包含306种语言的多语言阅读理解数据集,基于维基百科文章构建。数据集的问题由大型语言模型(LLM)生成,答案直接取自维基百科文章。通过对30多种语言的LLM生成问题进行众包评估,证明了问题的良好质量。该数据集旨在为评估编码器、解码器和编码器-解码器语言模型提供基准。
MultiWikiQA is a multilingual reading comprehension dataset covering 306 languages, built upon Wikipedia articles. The questions in the dataset are generated by Large Language Models (LLMs), and the answers are directly extracted from Wikipedia articles. The high quality of these LLM-generated questions has been verified through crowdsourced evaluation across more than 30 languages. This dataset serves as a benchmark for evaluating encoder-only, decoder-only, and encoder-decoder language models.
提供机构:
亚历山大研究所
创建时间:
2025-09-04
搜集汇总
数据集介绍

构建方式
MultiWikiQA数据集采用基于维基百科文章的多阶段生成流程构建而成。首先利用Gemini-1.5-pro大语言模型从原始文档中生成初步的问题-答案对,通过结构化输出确保JSON格式的规范性。随后进行严格的过滤验证,确保答案在原文中存在且符合提取式问答要求。为进一步提升问题多样性,引入独立的复述阶段对生成的问题进行语义保持的重新表述,有效避免了简单的词汇匹配现象。最终构建的上下文-问题-答案三元组采用与SQuAD一致的标准化格式,确保了数据集的兼容性和可用性。
特点
该数据集最显著的特征在于其前所未有的语言覆盖规模,涵盖306种语言并包含超过5000个样本的高质量语料。数据集在语言资源分布上呈现出均衡性,既包含高资源语言也广泛覆盖低资源语言,如巴什基尔语、卡拉卡尔帕克语等少数民族语言。通过众包方式对30种语言的生成问题进行了人工流畅度评估,结果显示平均评分超过2.0分,证实了问题的自然性和语言质量。数据集的难度设置合理,在不同类型的语言模型上都表现出足够的挑战性,且在不同语言间存在显著的性能差异。
使用方法
数据集采用标准化的训练-验证-测试划分方式,确保每种语言至少包含1024个训练样本、32个验证样本和128个测试样本。对于编码器模型,推荐使用训练集进行模型微调,并通过验证集进行早停策略优化。解码器模型则采用2-shot评估设置,从训练分割中选取少样本示例以支持基础解码器模型的合理评估。评估框架采用EuroEval标准,支持对指令调优解码器、基础解码器和编码器模型的统一性能度量。数据集格式与SQuAD兼容,可直接应用于现有的阅读理解系统,为跨语言信息抽取研究提供可靠的基准平台。
背景与挑战
背景概述
MultiWikiQA数据集由Alexandra Institute的Dan Saattrup Smart团队于2025年创建,旨在解决多语言阅读理解评估资源匮乏的核心问题。该数据集基于维基百科文章构建,涵盖306种语言,通过大语言模型生成问题与答案对,显著扩展了低资源语言的评估覆盖范围。其创新性在于首次实现了对数百种语言的大规模机器阅读理解基准测试,为跨语言信息检索和生成模型的研究提供了关键基础设施,推动了多语言自然语言处理领域的均衡发展。
当前挑战
该数据集面临的领域挑战在于解决低资源语言阅读理解任务中模型性能差异显著的问题,需确保跨语言评估的公平性与可比性。构建过程中的技术挑战包括:大语言模型生成问题的语义一致性与流畅性保障,特别是在语法结构复杂的语言中;答案与原文严格匹配的验证机制设计;以及针对300余种语言的文化背景与语言特性差异进行质量控制的复杂性。此外,数据平衡性维护和低资源语言样本稀缺性也是核心难点。
常用场景
经典使用场景
MultiWikiQA作为多语言阅读理解基准,广泛应用于评估编码器、解码器及编码器-解码器模型在306种语言上的信息提取能力。其经典使用场景包括测试模型从维基百科文档中定位答案的精确性,尤其在低资源语言上的表现分析,为跨语言自然语言处理研究提供标准化评估框架。
实际应用
MultiWikiQA在实际应用中支撑多语言搜索引擎、智能助手和教育平台的开发,特别是在维基百科知识检索场景中提升跨语言问答系统的准确性。其高质量的问题-答案对可用于训练和优化面向全球用户的RAG系统,促进语言技术在新兴市场及小众语言社区的实际落地。
衍生相关工作
该数据集衍生出多项跨语言模型对比研究,如基于EuroEval框架的系统性评估工作,以及对LLM生成问题质量的众包分析研究。相关成果推动了对语言模型在低资源语言上性能差异的深入探索,并为构建更公平的多语言NLP基准(如扩展Belebele等数据集)提供方法论参考。
以上内容由遇见数据集搜集并总结生成



