five

open-wikipedia-markdown

收藏
Hugging Face2026-04-03 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/open-index/open-wikipedia-markdown
下载链接
链接失效反馈
官方服务:
资源简介:
Open Wikipedia (Markdown) 数据集包含所有语言版本的维基百科文章,这些文章已从原始的 MediaWiki 标记转换为干净、可读的 Markdown 格式。数据集保留了标题、粗体、斜体、代码块和内部链接等 Markdown 语法,同时移除了模板、信息框、引用、表格、分类等噪音内容。当前数据集包含 139.4K 篇文章,涵盖 1 种语言(拉丁语),数据来源于官方的 Wikimedia 数据库转储。数据集以分片的 Apache Parquet 文件形式存储,每个文件最多包含 500,000 篇文章。数据集适用于文本生成、特征提取、文本分类、问答、摘要和翻译等任务。
创建时间:
2026-04-03
原始信息汇总

Open Wikipedia (Markdown) 数据集概述

数据集基本信息

  • 数据集名称: Open Wikipedia (Markdown)
  • 发布者: Open Index
  • 发布日期: 2026年
  • 许可证: Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)
  • 数据集地址: https://huggingface.co/datasets/open-index/open-wikipedia-

数据集内容与目标

  • 核心内容: 包含所有语言版本的维基百科文章,已从原始的MediaWiki标记语言转换为干净、可读的Markdown格式。
  • 数据来源: 官方Wikimedia数据库转储 (https://dumps.wikimedia.org/)。
  • 处理目标: 保留标题、粗体、斜体、代码块和内部链接等作为正确的Markdown语法,同时去除模板、信息框、引用、表格、分类和其他噪音。
  • 数据状态: 数据集正在积极填充中,新语言在处理完成后会陆续添加。预计完成日期为2026年4月13日。

数据规模与结构

  • 当前规模: 包含1种语言,共计139,421篇文章。
  • 数据格式: 以Apache Parquet文件(使用Zstandard压缩)分片存储。
  • 组织结构: 按语言组织,每种语言在data/目录下拥有自己的子目录,每个分片最多包含500,000篇文章。
  • 当前可用语言:
    • 拉丁语 (la): 139.4K篇文章,1个分片。

数据模式 (Schema)

每个Parquet文件共享相同的模式,包含以下字段:

字段名 数据类型 描述
id int64 维基百科页面ID,在每种语言版本中唯一。
title string 文章标题,与维基百科上显示的一致。
markdown string 从wikitext转换而来的完整文章正文(Markdown格式)。
url string 维基百科文章的直接URL。
lang string ISO 639语言代码(例如 en, de, fr, ja)。
length int32 Markdown正文的字节长度。
timestamp string 最后一次修订的时间戳(ISO 8601格式)。

数据处理流程

  1. 下载: 从dumps.wikimedia.org流式下载最新的{lang}wiki-latest-pages-articles.xml.bz2转储文件。
  2. 解析: 使用流式XML解析器处理bzip2压缩的转储文件,仅保留命名空间-0的页面(文章)。
  3. 转换: 通过一系列基于正则表达式的转换,将每篇文章的wikitext转换为Markdown。
  4. 过滤: 排除转换后长度小于100字节的文章。
  5. 分片: 将文章写入Zstandard压缩的Parquet文件,每片约500,000行。
  6. 发布: 每种语言的分片在处理完成后提交至Hugging Face仓库。

使用方式

  • 使用DuckDB: 可直接从Hugging Face读取Parquet文件进行查询。
  • 使用 datasets: 通过load_dataset函数加载特定语言的数据集。
  • 使用 huggingface_hub: 通过snapshot_download下载特定语言的数据。
  • 使用CLI: 通过huggingface-cli download命令下载。
  • 使用Polars: 通过pl.read_parquet读取Parquet文件进行分析。

相关数据集

  • 纯文本版本: https://huggingface.co/datasets/open-index/open-wikipedia-text
  • 原始wikitext版本: https://huggingface.co/datasets/open-index/open-wikipedia

已知限制

  • 转换基于正则表达式,并非完整解析器,某些复杂的wikitext结构可能无法完美转换。
  • 模板被完全剥离,而非展开,这意味着一些在渲染后的维基百科页面中出现的结构化数据在此数据集中不存在。
  • 此数据集代表每种语言转储的单一快照,不跟踪编辑历史或文章修订。
  • 并非所有语言版本的转储都始终可用。
搜集汇总
数据集介绍
main_image_url
构建方式
在知识图谱构建与自然语言处理领域,大规模、结构化的文本数据是模型训练与评估的基石。Open Wikipedia (Markdown) 数据集通过系统化的流程构建而成,其核心是从维基媒体基金会官方提供的多语言XML数据库转储中提取内容。处理流程首先流式下载特定语言的最新文章转储文件,随后采用流式XML解析器,仅保留命名空间0下的正式文章条目,过滤掉重定向页和讨论页等非核心内容。每一篇文章的原始维基文本均经过一系列基于正则表达式的转换,将MediaWiki标记语法映射为清晰可读的Markdown格式,同时彻底剥离信息框、导航模板、引用注释及表格等仅适用于原生渲染引擎的复杂元素。最终,经过转换且长度超过100字节的文章被分批写入经过Zstandard压缩的Parquet文件,每份文件约包含50万条记录,并按语言代码分目录组织,从而形成结构清晰、便于高效存取的数据集合。
特点
该数据集的核心特征在于其格式的纯净性与结构的完整性。与纯文本版本相比,它完整保留了文章内部的层次化标题、强调样式(粗体与斜体)、代码块以及内部超链接,并将后者转换为指向对应语言维基百科页面的完整URL,使得文档的语义结构与知识关联得以显式编码。数据集采用列式存储的Parquet格式并辅以高效压缩,显著提升了I/O效率与存储经济性。其设计支持多语言扩展,当前虽仅包含拉丁语版本,但其架构旨在逐步纳入全部维基百科语言版本,体现了持续演进的动态特性。这种在保留核心可读内容的同时,系统化去除渲染模板与复杂标记的设计,使其特别适用于需要理解文档逻辑结构或利用内部链接关系的下游任务。
使用方法
为便利研究者与开发者使用,该数据集提供了多种灵活的访问范式。用户可通过Hugging Face `datasets` 库,指定语言代码(如“en”)直接加载数据至内存,或启用流式读取以迭代方式处理海量文章而无需完整下载。对于需要执行复杂查询或聚合分析的任务,推荐使用DuckDB直接远程读取Parquet文件,利用SQL语句实现跨语言的文章统计、内容搜索或长度分布计算。此外,也可通过 `huggingface_hub` 工具或命令行接口,选择性下载特定语言的子集至本地。数据集的统一模式包含文章ID、标题、Markdown正文、URL、语言代码、文本长度及时间戳,确保了数据访问的一致性。这种多接口支持的设计,兼顾了探索性分析的便捷性与大规模处理的效率需求。
背景与挑战
背景概述
在数字知识库构建与自然语言处理领域,维基百科作为全球最大的多语言百科全书,其结构化数据的获取与利用一直是研究的关键基础。Open Wikipedia (Markdown)数据集由Open Index团队于2026年创建,旨在将维基百科原始MediaWiki标记语言转换为清晰、结构化的Markdown格式。该数据集的核心研究问题聚焦于如何高效、准确地剥离模板、信息框等渲染噪声,同时保留文章的核心内容与层级结构,为大规模语言模型训练、知识图谱构建及检索增强生成等任务提供高质量、多语言的文本语料。其覆盖多种语言版本的设计,显著提升了跨语言知识表示与迁移学习的研究潜力,对推动开放科学和可复现人工智能研究具有重要影响力。
当前挑战
该数据集致力于解决从非结构化维基百科原始数据中提取纯净、可读文本的领域挑战,具体包括如何准确区分文章内容与模板、表格、引用等辅助元素,以及如何在多语言语境下保持格式转换的一致性。在构建过程中,团队面临诸多技术难题:首先,基于正则表达式的转换方法难以完美处理复杂嵌套的MediaWiki语法,可能导致部分边缘案例的结构丢失;其次,大规模数据流式处理要求高效的XML解析与并行计算架构,以应对数百种语言、数千万篇文章的转换任务;此外,维基百科数据快照的时效性以及部分语言版本数据可用性的波动,也为数据集的完整性与持续更新带来了挑战。
常用场景
经典使用场景
在自然语言处理领域,大规模文本数据是模型训练与评估的基石。Open Wikipedia (Markdown) 数据集以其结构化的Markdown格式,为语言模型预训练提供了高质量的语料。其经典使用场景在于,研究人员利用其多语言、结构清晰的特性,训练能够理解文档层级与语义关联的大规模语言模型。该数据集保留了标题、加粗、链接等格式,使得模型能够学习到文本的逻辑结构与知识关联,为生成式任务奠定基础。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作。在语言模型预训练领域,它常被用作多语言模型(如mBERT、XLM-R)的重要训练语料之一。在知识图谱构建中,研究者利用其保留的内部链接结构,自动化抽取实体关系。此外,基于其Markdown格式的特性,一些工作专注于研究文档结构感知的文本表示方法,或开发更高效的文本清洗与转换工具,进一步推动了结构化文本处理技术的发展。
数据集最近研究
最新研究方向
在知识密集型自然语言处理领域,开放维基百科Markdown数据集因其结构化的知识呈现方式,正成为前沿研究的关键资源。该数据集将维基百科文章转换为纯净的Markdown格式,保留了标题、链接和代码块等语义结构,为大规模语言模型的预训练与指令微调提供了高质量的语料。当前研究热点聚焦于利用其多语言特性与结构化信息,增强模型的检索增强生成能力、跨语言知识对齐以及文档级语义理解。该数据集的持续更新与多语言扩展,进一步推动了开放领域问答、知识图谱构建以及低资源语言模型开发等方向的发展,为构建更具解释性和事实准确性的AI系统奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作