structured-wikipedia

Hugging Face2024-09-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/wikimedia/structured-wikipedia

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是预解析的英语和法语维基百科文章的早期测试版发布，包括信息框。它包含来自英语和法语维基百科版本的所有文章，预解析并以结构化的JSON文件输出。该数据集是Wikimedia Enterprise结构化内容计划的一部分，旨在使Wikimedia数据更易于机器读取。它包括文章名称、标识符、URL、摘要、描述、图像、信息框和章节等字段。该数据集在GNU自由文档许可证（GFDL）和Creative Commons Attribution-Share-Alike 4.0许可证下发布。它适用于模型开发中的各种任务，从预训练到微调和基准测试。

This dataset is an early beta release of pre-parsed English and French Wikipedia articles, including infoboxes. It contains all articles from the English and French Wikipedia editions, pre-parsed and exported as structured JSON files. This dataset is part of the Wikimedia Enterprise Structured Content initiative, which aims to make Wikimedia data more machine-readable. It includes fields such as article name, identifier, URL, abstract, description, images, infoboxes, and sections. This dataset is released under the GNU Free Documentation License (GFDL) and the Creative Commons Attribution-ShareAlike 4.0 License. It is suitable for a wide range of tasks in model development, ranging from pre-training, fine-tuning to benchmarking.

创建时间：

2024-09-19

原始信息汇总

数据集卡片：Wikimedia Structured Wikipedia

数据集描述

数据集概述

Wikimedia Structured Wikipedia 数据集是预解析的英语和法语维基百科文章的早期测试版发布，包括信息框。该数据集包含所有英语和法语维基百科文章，预解析并以一致的 JSON 模式输出为结构化 JSON 文件（JSONL 压缩为 zip）。每行 JSON 包含一个完整的维基百科文章内容，去除了额外的 markdown 和非散文部分（如参考文献等）。

支持的任务和排行榜

该数据集的结构化形式通常对各种任务都有帮助，包括模型开发的各个阶段，从预训练到对齐、微调、更新/RAG 以及测试/基准测试。

语言

英语 (BCP 47 Language Code: EN)
法语 (BCP 47 Language Code: FR)

数据集结构

数据实例

每个 JSON 行的示例如下（缩写数据）：

json { "name":"JosephineBaker", "identifier":255083, "url":"https://en.wikipedia.org/wiki/Josephine_Baker", "date_created":"...", "date_modified":"...", "is_part_of":{"..."}, "in_language":{"..."}, "main_entity":{"identifier":"Q151972",...}, "additional_entities":[...], "version":{...}, "description":"American-bornFrenchdancer...", "abstract":"FredaJosephineBaker,naturalizedas...", "image":{"content_url":"https://upload.wikimedia.org/wikipedia/...",...}, "infobox":[{"name":"Infoboxperson", "type":"infobox", "has_parts":[ { "name":"JosephineBaker", "type":"section", "has_parts":[ {"name":"Born", "type":"field", "value":"FredaJosephineMcDonaldJune3,1906 St.Louis,Missouri,US", "links":[{"url": "https://en.wikipedia.org/wiki/St.Louis", "text":"St.Louis"},}], ] } ] }], "sections": [{"name": "Abstract", "type": "section", "has_parts": [ { "type": "paragraph", "value": "Freda Josephine Baker (née McDonald; June 3, 1906 - April 12, 1975), naturalized as Joséphine Baker...", "links": [{"url": "https://en.wikipedia.org/wiki/Siren...","text": "Siren of the Tropics"...}] } ], ... }], "license":[...], }

时间戳

数据集提取日期：2024年9月16日

数据大小

英语：
- 压缩数据文件大小：17.91 GB
- 未压缩数据集大小：79.57 GB
法语：
- 压缩数据文件大小：6.95 GB
- 未压缩数据集大小：34.01 GB

JSONL 文件压缩在 zip 中，一旦解压缩，它们按最大 2.15GB 分块。

数据字段

所有数据字段相同，值得注意的字段包括：

name - 文章标题
identifier - 文章 ID
url - 文章 URL
version - 与文章最新特定修订相关的元数据
version.editor - 编辑器特定的信号，有助于上下文化修订
version.scores - 返回 ML 模型对修订被还原的可能性的评估
main_entity - 与文章相关的 Wikidata QID
abstract - 引导部分，总结文章的内容
description - 文章的快速参考单句描述
image - 代表文章主题的主要图像
infobox - 从维基百科文章的侧边栏（信息框）解析的信息
sections - 文章的解析部分，包括链接

数据集创建

数据来源

数据集基于 Wikimedia Enterprise HTML “快照”构建，重点关注维基百科文章命名空间（命名空间 0（主））。

源语言生产者

维基百科是一个由全球编辑社区自2001年以来编写、编辑和策划的人类生成免费知识语料库。

使用数据的注意事项

数据集的社会影响

维基百科的文章每月被超过20亿次阅读，被超过5亿人访问。它不属于或来自单一文化或语言。它是跨语言和大陆的大规模国际合作的典范。

讨论偏见

尽管有意识地试图呈现编辑中立的观点，但维基百科的内容反映了其所来自的社会的偏见。这包括各种“差距”（特别是在女性传记和女性编辑的比例上）。其他显著的差距包括语言和技术访问的可达性，以及审查制度。

其他已知限制

这是一个早期测试版，以下限制可能适用：

快照中可能包含一小部分重复、删除或遗漏的文章。可以通过查看最高的 "version.identifier" 来过滤重复项，这是文章的最新的修订版本。
由于长文章的限制，修订差异可能发生。
偶尔可能会返回空的节或值。这可能是因为该节包含参考文献或类似的；或者是由列表和表格等结构化元素组成的；或者该节被编辑者留空。
图像：目前仅支持主图像和信息框图像链接，鼓励您通过图像链接获取额外的信息和许可，同时我们正在评估直接添加此数据。

附加信息

数据集策展人

该数据集由 Wikimedia Foundation 的 Wikimedia Enterprise 团队创建，作为结构化内容计划的一部分。

归属信息

Wikimedia Enterprise 提供此数据集的前提是下游用户在重新使用数据时将遵守相关的自由文化许可。在需要归属的情况下，重新使用者应识别从中检索内容的维基百科项目作为内容的来源。任何归属都应遵守维基百科的商标政策和视觉标识指南。

搜集汇总

数据集介绍

构建方式

structured-wikipedia数据集通过解析英文和法文维基百科的文章内容构建而成，涵盖了包括信息框在内的结构化数据。该数据集从维基百科的公开资源中提取信息，经过预处理和结构化处理，生成了包含文章名称、标识符、摘要、版本信息、编辑历史、评分系统等多维度的数据。每个条目均经过详细的元数据标注，确保数据的完整性和可追溯性。

特点

该数据集的特点在于其高度结构化的数据组织形式，涵盖了维基百科文章的多个方面，如编辑者信息、版本控制、评分系统、维护标签等。数据集中还包含了丰富的元数据，如文章的语言、创建和修改日期、所属分类等。此外，数据集支持多语言（英文和法文），并提供了详细的编辑历史和评分信息，适用于语言建模、信息提取等任务。

使用方法

structured-wikipedia数据集可用于多种自然语言处理任务，如语言建模、掩码语言建模等。用户可以通过HuggingFace平台加载数据集，并根据任务需求选择相应的配置（如英文或法文）。数据集的每个条目均以结构化格式存储，便于直接提取所需信息。用户可以通过API访问数据，并结合机器学习框架进行模型训练和评估。

背景与挑战

背景概述

structured-wikipedia数据集是由Wikimedia基金会于2024年发布的一个结构化维基百科数据集，涵盖了英语和法语两种语言的维基百科文章。该数据集的核心目标是为自然语言处理（NLP）任务，如语言建模和掩码语言建模，提供高质量的预解析文本资源。通过将维基百科文章中的信息以结构化形式呈现，该数据集为研究人员提供了一个丰富的语料库，能够支持更复杂的文本分析和知识提取任务。其发布标志着维基百科数据在NLP领域中的进一步应用，尤其是在多语言处理和知识图谱构建方面具有重要意义。

当前挑战

structured-wikipedia数据集在构建和应用过程中面临多重挑战。首先，维基百科文章的内容多样且复杂，如何有效地提取和结构化这些信息，尤其是处理多语言文本的语义差异，是一个技术难题。其次，维基百科的编辑动态性导致数据版本频繁更新，如何确保数据集的时效性和一致性成为一大挑战。此外，数据集中包含的元数据（如编辑历史、标签信息等）虽然丰富，但也增加了数据处理的复杂性，尤其是在模型训练时如何有效利用这些信息仍是一个开放问题。最后，数据集的规模较大，如何在保证数据质量的同时进行高效存储和传输，也是实际应用中需要解决的问题。

常用场景

经典使用场景

structured-wikipedia数据集在自然语言处理领域中被广泛应用于语言模型的训练与评估。其结构化的数据格式，尤其是包含的Infoboxes和文章摘要，为模型提供了丰富的上下文信息，使得模型能够更好地理解文本的语义和结构。该数据集常用于预训练语言模型，如BERT、GPT等，以提升其在多种下游任务中的表现。

解决学术问题

structured-wikipedia数据集解决了自然语言处理领域中的多个关键问题，尤其是在语言模型的预训练和微调过程中。通过提供结构化的维基百科文章，该数据集帮助研究人员更好地处理长文本、多语言文本以及复杂语义关系。此外，其包含的Infoboxes和编辑历史信息为研究文本生成、知识图谱构建以及信息抽取任务提供了宝贵的数据支持。

衍生相关工作

structured-wikipedia数据集催生了许多经典的自然语言处理研究工作。例如，基于该数据集的研究成果被用于改进BERT和GPT等预训练语言模型的性能。此外，该数据集还被用于开发知识图谱构建工具，如Wikidata和DBpedia，这些工具进一步推动了语义网和知识表示领域的发展。

以上内容由遇见数据集搜集并总结生成