wikipedia-monthly

Hugging Face2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/omarkamali/wikipedia-monthly

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个配置的维基媒体语料库数据集，每个配置都有特定的特征，如ID、URL、标题、原始维基媒体文本和文本。每个配置都有一个训练分割，包含数据量和示例数。此外，还提供了每个配置的数据集大小和下载大小。

创建时间：

2025-07-14

原始信息汇总

数据集概述：Wikipedia Monthly

数据集基本信息

数据集名称：Wikipedia Monthly
数据来源：维基百科多语言版本
数据格式：结构化文本数据
主要特征：
- id (string): 文章唯一标识符
- url (string): 文章URL
- title (string): 文章标题
- raw_mediawiki (string): 原始MediaWiki格式内容
- text (string): 文章文本内容

数据规模与配置

数据集包含多个语言版本配置（config），每个配置对应一种语言。部分示例如下：

语言配置示例

20250701.ab
- 训练集样本数：6,505
- 训练集大小：19.17 MB
- 下载大小：7.06 MB
20250701.ace
- 训练集样本数：13,089
- 训练集大小：17.11 MB
- 下载大小：4.35 MB
20250701.ady
- 训练集样本数：723
- 训练集大小：2.39 MB
- 下载大小：1.10 MB
20250701.af
- 训练集样本数：124,877
- 训练集大小：761.68 MB
- 下载大小：379.27 MB
20250701.ak
- 训练集样本数：1
- 训练集大小：490 B
- 下载大小：4.27 KB
20250701.ar
- 训练集样本数：1,315,490
- 训练集大小：11.75 GB
- 下载大小：4.69 GB
20250701.de
- 训练集样本数：3,025,053
- 训练集大小：33.02 GB
- 下载大小：17.93 GB

数据集特点

多语言覆盖：包含从常见语言（如德语、阿拉伯语）到较少使用语言（如阿坎语、切罗基语）的多种语言版本
规模差异大：不同语言版本的数据量差异显著，从几KB到数十GB不等
完整文章结构：包含文章元数据和内容文本

适用场景

多语言自然语言处理
跨语言信息检索
机器翻译模型训练
语言学研究

搜集汇总

数据集介绍

构建方式

wikipedia-monthly数据集基于维基百科多语言版本的月度数据快照构建，采用MediaWiki的原始标记语言(raw_mediawiki)和解析后文本(text)双重存储策略。该数据集通过系统化爬取维基百科各语言子站的XML数据转储，经过去重、格式标准化和元数据提取等流程，最终形成包含文章ID、URL、标题、原始标记和纯文本的结构化数据。每个语言版本独立配置(config)，数据按训练集划分并精确统计字节数与样本量，确保数据完整性与可追溯性。

特点

该数据集最显著的特点是涵盖300余种语言的维基百科内容，从主流语种如德语(330亿字符)到濒危语言如克里语(71KB)均有收录。每个条目包含原始MediaWiki标记与清洗后的纯文本，为自然语言处理研究提供丰富的格式信息。数据规模呈现长尾分布，英语、德语等大语种数据量超千兆字节，而小语种如阿坎语仅含1条样本。这种多尺度特性使其兼具通用语料库的广度和低资源语言研究的价值。

使用方法

使用该数据集时，可通过HuggingFace数据集库按语言代码(config_name)加载特定语种，如'20250701.de'对应德语版本。数据以经典文本数据集形式组织，支持流式读取以处理超大规模语种。建议应用场景包括：跨语言模型预训练、低资源语言研究、维基文本解析算法开发等。对于原始标记语言的分析需配合MediaWiki解析器，而纯文本字段可直接用于下游NLP任务。注意不同语种的数据量差异可能影响批次加载策略。

背景与挑战

背景概述

Wikipedia-monthly数据集是一个基于维基百科多语言版本的月度快照数据集，由HuggingFace平台维护并定期更新。该数据集涵盖了包括英语、中文、阿拉伯语等在内的数百种语言版本，每个条目均包含原始MediaWiki标记和纯文本内容，为自然语言处理领域提供了丰富的多语言语料资源。维基百科作为全球最大的开放式百科全书，其结构化数据和多语言特性使得该数据集在机器翻译、跨语言信息检索等研究方向具有重要价值。数据集的构建依托于维基媒体基金会的开放数据政策，反映了互联网时代群体协作的知识构建模式。

当前挑战

该数据集面临的核心挑战主要体现在多语言处理的复杂性上：不同语言版本的条目数量和质量存在显著差异，部分小语种数据稀疏性问题突出；MediaWiki标记的异构性导致文本清洗和标准化难度增加；动态更新的特性要求持续维护版本一致性。在技术层面，海量数据的存储与高效检索需要分布式系统支持，而跨语言对齐任务则受限于语种间内容覆盖度的不均衡。此外，维基百科的编辑中立性原则要求数据使用者对潜在偏见保持警惕，这对构建公平的NLP模型提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，wikipedia-monthly数据集因其多语言覆盖和结构化文本特性，常被用于训练跨语言词嵌入模型和机器翻译系统。该数据集通过提供不同语言版本的维基百科条目，为研究者构建语言无关的语义表示提供了丰富的平行语料。特别是在低资源语言处理任务中，其包含的小语种数据能够有效缓解数据稀疏性问题。

实际应用

实际应用中，互联网内容平台利用该数据集构建多语言知识图谱，显著提升了跨语言搜索的准确率。教育科技公司则基于其开发了智能语法校对系统，支持对小语种文本的自动纠错。在商业智能领域，企业通过分析不同语言版本条目的编辑模式，洞察全球知识传播的时空特征。

衍生相关工作

该数据集催生了多个里程碑式研究，包括跨语言BERT模型XLM-R的预训练，以及谷歌发布的mT5多任务学习框架。在学术界，基于该数据集开展的WikiAnn命名实体识别基准测试已成为评估跨语言NLP系统的黄金标准。近期更衍生出WikiBERT等专注于维基百科文本特性的预训练方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集