megawika-2

Name: megawika-2
Creator: Center for Language and Speech Processing @ JHU
Published: 2025-08-05 17:24:00
License: 暂无描述

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/jhu-clsp/megawika-2

下载链接

链接失效反馈

官方服务：

资源简介：

MegaWika 2是一个改进的多语言和跨语言文本数据集，包含Wikipedia的结构化视图，最终将涵盖50种语言，包括从所有引用的Web源中干净提取的内容。

提供机构：

Center for Language and Speech Processing @ JHU

创建时间：

2025-07-31

原始信息汇总

MegaWika 2 数据集概述

数据集简介

MegaWika 2 是一个改进的多语言和跨语言文本数据集，包含结构化的维基百科内容，涵盖50种语言。
数据集基于2024年5月1日的维基百科数据转储，包含约7700万篇文章和7100万条网络引用。
英语部分最大，包含约1000万篇文章和2400万条网络引用。

语言覆盖

涵盖50种语言，使用ISO 639-1双字符语言代码表示，包括：
- af: 南非荷兰语
- ar: 阿拉伯语
- az: 阿塞拜疆语
- ...（完整列表见数据集详情）

数据集结构

目录结构

每种语言对应一个子目录，以语言代码命名。
每个语言子目录包含：
- data/：JSON-lines格式的数据块，每个文件最多包含1000篇文章。
- metrics.json：语言特定的统计摘要。

JSON结构

每篇文章包含标题、原始wikicode、解析后的文本以及文章结构的层次化表示。
层次化结构包括标题、段落、表格、信息框等块级元素及其子元素。

统计信息

与MegaWika 1相比，MegaWika 2在文章收集、网络引用检测和抓取方面有显著提升：
- 文章收集：375%增长
- 网络引用检测：231%增长
- 网络引用抓取：319%增长
- 抓取/提取召回率：相对提高27%

版本变更（2.0版本）

重新设计了数据结构，捕获文本和引用之间的关系。
改进引用提取过程的召回率，包括：
- 支持命名引用解析
- 扩展引用语法覆盖
- 包含所有引用，而不仅是可抓取的URL
- 增加抓取源代码大小限制
提供更多错误处理和元数据，支持缺失数据分析和潜在偏差研究。

相关资源

搜集汇总

数据集介绍

构建方式

MegaWika 2作为多语言维基百科结构化数据集，其构建基于2024年5月的维基百科数据快照，涵盖50种语言的7700万篇文章及7100万条网络引用。数据集采用增量更新机制，通过定期发布的delta文件收录新增或修改内容，确保数据时效性。技术实现上采用改进的引用解析算法，支持命名引用解析并扩展了引用语法覆盖范围，同时保留所有引用记录以供研究分析，显著提升了引用提取的召回率。

特点

该数据集最显著的特征是其多层次结构化表示体系，将每篇文章解构为标题、原始wikicode文本及层级化内容元素（标题段落/表格/信息框等）。创新性地实现了句子级文本分割，并附带英文翻译文本与引用关联信息。相较于前代版本，数据覆盖率提升375%，引用检测召回率相对提高27%，且包含文章创建日期、跨语言链接等丰富元数据，为跨语言研究提供多维分析基础。

使用方法

研究者可通过语言代码索引访问特定语种子目录，每个目录包含以JSON-lines格式存储的数据块（每块最多1000篇文章）及统计文件。数据使用需配合详细的JSON模式说明，该模式定义了从文章结构元素到句子级引用标注的完整类型层次。典型应用场景包括：利用结构化文本研究知识组织方式，基于多语言引用网络分析信息传播，或通过对比原文与翻译文本开展机器翻译研究。数据集配套提供在线文档和可浏览的数据模式说明，建议结合白皮书进行深度使用。

背景与挑战

背景概述

MegaWika 2是由约翰霍普金斯大学语言与语音处理中心（JHU-CLSP）于2024年推出的多语言与跨语言文本数据集，作为MegaWika 1的迭代升级版本。该数据集基于2024年5月的维基百科数据转储，覆盖50种语言，包含约7700万篇文章和7100万条网络引用，旨在为自然语言处理领域提供结构化的维基百科内容视图。其核心研究问题聚焦于跨语言知识表示与引用溯源，通过改进引用检测和源文本提取流程，显著提升了数据覆盖范围与质量，为机器翻译、知识图谱构建等任务提供了更丰富的多语言基准资源。

当前挑战

构建MegaWika 2面临双重挑战：在领域问题层面，需解决跨语言引用溯源中存在的语法差异（如命名引用解析）、低资源语言数据稀疏性，以及海量网络源文本的质量评估难题；在技术实现层面，需攻克维基百科复杂模板的解析、动态更新的增量处理（Delta发布机制），以及71百万级引用数据的分布式爬取与清洗。尽管引用检测召回率相对提升27%，但41%的总体提取率仍表明网络源文本获取存在显著瓶颈，尤其对小语种及非标准化引用格式的覆盖不足。

常用场景

经典使用场景

在跨语言信息检索领域，MegaWika-2数据集凭借其覆盖50种语言的庞大文本资源，为研究者提供了丰富的多语言语料库。该数据集不仅包含维基百科文章的原始文本，还涵盖了引用的网络资源，使得研究人员能够深入探索不同语言间的语义关联和知识迁移。其结构化设计特别适合用于训练和评估跨语言预训练模型，如多语言BERT或XLM-R，以提升模型在低资源语言上的表现。

衍生相关工作

基于MegaWika-2的丰富资源，学术界已衍生出多项重要研究。其中包括跨语言预训练模型的优化工作，如扩展XLM-R在多语言任务上的性能；以及基于引用网络的学术影响力分析研究。该数据集还催生了多个维基百科特定领域的研究，如编辑行为模式分析和多语言知识差异量化，为数字人文研究提供了新的方法论。

数据集最近研究