structured-wikipedia
收藏数据集卡片:Wikimedia Structured Wikipedia
数据集描述
数据集概述
Wikimedia Structured Wikipedia 数据集是预解析的英语和法语维基百科文章的早期测试版发布,包括信息框。该数据集包含所有英语和法语维基百科文章,预解析并以一致的 JSON 模式输出为结构化 JSON 文件(JSONL 压缩为 zip)。每行 JSON 包含一个完整的维基百科文章内容,去除了额外的 markdown 和非散文部分(如参考文献等)。
支持的任务和排行榜
该数据集的结构化形式通常对各种任务都有帮助,包括模型开发的各个阶段,从预训练到对齐、微调、更新/RAG 以及测试/基准测试。
语言
- 英语 (BCP 47 Language Code: EN)
- 法语 (BCP 47 Language Code: FR)
数据集结构
数据实例
每个 JSON 行的示例如下(缩写数据):
json { "name":"JosephineBaker", "identifier":255083, "url":"https://en.wikipedia.org/wiki/Josephine_Baker", "date_created":"...", "date_modified":"...", "is_part_of":{"..."}, "in_language":{"..."}, "main_entity":{"identifier":"Q151972",...}, "additional_entities":[...], "version":{...}, "description":"American-bornFrenchdancer...", "abstract":"FredaJosephineBaker,naturalizedas...", "image":{"content_url":"https://upload.wikimedia.org/wikipedia/...",...}, "infobox":[{"name":"Infoboxperson", "type":"infobox", "has_parts":[ { "name":"JosephineBaker", "type":"section", "has_parts":[ {"name":"Born", "type":"field", "value":"FredaJosephineMcDonaldJune3,1906 St.Louis,Missouri,US", "links":[{"url": "https://en.wikipedia.org/wiki/St.Louis", "text":"St.Louis"},}], ] } ] }], "sections": [{"name": "Abstract", "type": "section", "has_parts": [ { "type": "paragraph", "value": "Freda Josephine Baker (née McDonald; June 3, 1906 - April 12, 1975), naturalized as Joséphine Baker...", "links": [{"url": "https://en.wikipedia.org/wiki/Siren...","text": "Siren of the Tropics"...}] } ], ... }], "license":[...], }
时间戳
数据集提取日期:2024年9月16日
数据大小
- 英语:
- 压缩数据文件大小:17.91 GB
- 未压缩数据集大小:79.57 GB
- 法语:
- 压缩数据文件大小:6.95 GB
- 未压缩数据集大小:34.01 GB
JSONL 文件压缩在 zip 中,一旦解压缩,它们按最大 2.15GB 分块。
数据字段
所有数据字段相同,值得注意的字段包括:
name- 文章标题identifier- 文章 IDurl- 文章 URLversion- 与文章最新特定修订相关的元数据version.editor- 编辑器特定的信号,有助于上下文化修订version.scores- 返回 ML 模型对修订被还原的可能性的评估main_entity- 与文章相关的 Wikidata QIDabstract- 引导部分,总结文章的内容description- 文章的快速参考单句描述image- 代表文章主题的主要图像infobox- 从维基百科文章的侧边栏(信息框)解析的信息sections- 文章的解析部分,包括链接
数据集创建
数据来源
数据集基于 Wikimedia Enterprise HTML “快照”构建,重点关注维基百科文章命名空间(命名空间 0(主))。
源语言生产者
维基百科是一个由全球编辑社区自2001年以来编写、编辑和策划的人类生成免费知识语料库。
使用数据的注意事项
数据集的社会影响
维基百科的文章每月被超过20亿次阅读,被超过5亿人访问。它不属于或来自单一文化或语言。它是跨语言和大陆的大规模国际合作的典范。
讨论偏见
尽管有意识地试图呈现编辑中立的观点,但维基百科的内容反映了其所来自的社会的偏见。这包括各种“差距”(特别是在女性传记和女性编辑的比例上)。其他显著的差距包括语言和技术访问的可达性,以及审查制度。
其他已知限制
这是一个早期测试版,以下限制可能适用:
- 快照中可能包含一小部分重复、删除或遗漏的文章。可以通过查看最高的 "version.identifier" 来过滤重复项,这是文章的最新的修订版本。
- 由于长文章的限制,修订差异可能发生。
- 偶尔可能会返回空的节或值。这可能是因为该节包含参考文献或类似的;或者是由列表和表格等结构化元素组成的;或者该节被编辑者留空。
- 图像:目前仅支持主图像和信息框图像链接,鼓励您通过图像链接获取额外的信息和许可,同时我们正在评估直接添加此数据。
附加信息
数据集策展人
该数据集由 Wikimedia Foundation 的 Wikimedia Enterprise 团队创建,作为结构化内容计划的一部分。
归属信息
Wikimedia Enterprise 提供此数据集的前提是下游用户在重新使用数据时将遵守相关的自由文化许可。在需要归属的情况下,重新使用者应识别从中检索内容的维基百科项目作为内容的来源。任何归属都应遵守维基百科的商标政策和视觉标识指南。




