megawika-2
收藏Hugging Face2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/jhu-clsp/megawika-2
下载链接
链接失效反馈官方服务:
资源简介:
MegaWika 2是一个改进的多语言和跨语言文本数据集,包含Wikipedia的结构化视图,最终将涵盖50种语言,包括从所有引用的Web源中干净提取的内容。
提供机构:
Center for Language and Speech Processing @ JHU
创建时间:
2025-07-31
原始信息汇总
MegaWika 2 数据集概述
数据集简介
- MegaWika 2 是一个改进的多语言和跨语言文本数据集,包含结构化的维基百科内容,涵盖50种语言。
- 数据集基于2024年5月1日的维基百科数据转储,包含约7700万篇文章和7100万条网络引用。
- 英语部分最大,包含约1000万篇文章和2400万条网络引用。
语言覆盖
- 涵盖50种语言,使用ISO 639-1双字符语言代码表示,包括:
af: 南非荷兰语ar: 阿拉伯语az: 阿塞拜疆语- ...(完整列表见数据集详情)
数据集结构
目录结构
- 每种语言对应一个子目录,以语言代码命名。
- 每个语言子目录包含:
data/:JSON-lines格式的数据块,每个文件最多包含1000篇文章。metrics.json:语言特定的统计摘要。
JSON结构
- 每篇文章包含标题、原始wikicode、解析后的文本以及文章结构的层次化表示。
- 层次化结构包括标题、段落、表格、信息框等块级元素及其子元素。
统计信息
- 与MegaWika 1相比,MegaWika 2在文章收集、网络引用检测和抓取方面有显著提升:
- 文章收集:375%增长
- 网络引用检测:231%增长
- 网络引用抓取:319%增长
- 抓取/提取召回率:相对提高27%
版本变更(2.0版本)
- 重新设计了数据结构,捕获文本和引用之间的关系。
- 改进引用提取过程的召回率,包括:
- 支持命名引用解析
- 扩展引用语法覆盖
- 包含所有引用,而不仅是可抓取的URL
- 增加抓取源代码大小限制
- 提供更多错误处理和元数据,支持缺失数据分析和潜在偏差研究。
相关资源
搜集汇总
数据集介绍

构建方式
MegaWika 2作为多语言维基百科结构化数据集,其构建基于2024年5月的维基百科数据快照,涵盖50种语言的7700万篇文章及7100万条网络引用。数据集采用增量更新机制,通过定期发布的delta文件收录新增或修改内容,确保数据时效性。技术实现上采用改进的引用解析算法,支持命名引用解析并扩展了引用语法覆盖范围,同时保留所有引用记录以供研究分析,显著提升了引用提取的召回率。
特点
该数据集最显著的特征是其多层次结构化表示体系,将每篇文章解构为标题、原始wikicode文本及层级化内容元素(标题段落/表格/信息框等)。创新性地实现了句子级文本分割,并附带英文翻译文本与引用关联信息。相较于前代版本,数据覆盖率提升375%,引用检测召回率相对提高27%,且包含文章创建日期、跨语言链接等丰富元数据,为跨语言研究提供多维分析基础。
使用方法
研究者可通过语言代码索引访问特定语种子目录,每个目录包含以JSON-lines格式存储的数据块(每块最多1000篇文章)及统计文件。数据使用需配合详细的JSON模式说明,该模式定义了从文章结构元素到句子级引用标注的完整类型层次。典型应用场景包括:利用结构化文本研究知识组织方式,基于多语言引用网络分析信息传播,或通过对比原文与翻译文本开展机器翻译研究。数据集配套提供在线文档和可浏览的数据模式说明,建议结合白皮书进行深度使用。
背景与挑战
背景概述
MegaWika 2是由约翰霍普金斯大学语言与语音处理中心(JHU-CLSP)于2024年推出的多语言与跨语言文本数据集,作为MegaWika 1的迭代升级版本。该数据集基于2024年5月的维基百科数据转储,覆盖50种语言,包含约7700万篇文章和7100万条网络引用,旨在为自然语言处理领域提供结构化的维基百科内容视图。其核心研究问题聚焦于跨语言知识表示与引用溯源,通过改进引用检测和源文本提取流程,显著提升了数据覆盖范围与质量,为机器翻译、知识图谱构建等任务提供了更丰富的多语言基准资源。
当前挑战
构建MegaWika 2面临双重挑战:在领域问题层面,需解决跨语言引用溯源中存在的语法差异(如命名引用解析)、低资源语言数据稀疏性,以及海量网络源文本的质量评估难题;在技术实现层面,需攻克维基百科复杂模板的解析、动态更新的增量处理(Delta发布机制),以及71百万级引用数据的分布式爬取与清洗。尽管引用检测召回率相对提升27%,但41%的总体提取率仍表明网络源文本获取存在显著瓶颈,尤其对小语种及非标准化引用格式的覆盖不足。
常用场景
经典使用场景
在跨语言信息检索领域,MegaWika-2数据集凭借其覆盖50种语言的庞大文本资源,为研究者提供了丰富的多语言语料库。该数据集不仅包含维基百科文章的原始文本,还涵盖了引用的网络资源,使得研究人员能够深入探索不同语言间的语义关联和知识迁移。其结构化设计特别适合用于训练和评估跨语言预训练模型,如多语言BERT或XLM-R,以提升模型在低资源语言上的表现。
衍生相关工作
基于MegaWika-2的丰富资源,学术界已衍生出多项重要研究。其中包括跨语言预训练模型的优化工作,如扩展XLM-R在多语言任务上的性能;以及基于引用网络的学术影响力分析研究。该数据集还催生了多个维基百科特定领域的研究,如编辑行为模式分析和多语言知识差异量化,为数字人文研究提供了新的方法论。
数据集最近研究
最新研究方向
在跨语言信息检索和自然语言处理领域,MegaWika 2数据集因其覆盖50种语言的结构化维基百科内容和丰富的引用数据,成为研究热点。最新研究聚焦于利用其改进的引用检测和来源抓取机制,探索多语言知识图谱构建和跨语言语义对齐。该数据集支持对维基百科文章结构的深入分析,为研究引用行为、知识传播和内容可信度提供了新视角。其扩展的语料规模和精细的句子级标注,进一步推动了机器翻译、问答系统和文本生成等任务的发展。
以上内容由遇见数据集搜集并总结生成



