legacy-datasets/wikipedia

Name: legacy-datasets/wikipedia
Creator: legacy-datasets
Published: 2024-03-11 18:16:32
License: 暂无描述

Hugging Face2024-03-11 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/legacy-datasets/wikipedia

下载链接

链接失效反馈

官方服务：

资源简介：

Wikipedia数据集包含所有语言的清理后的文章。该数据集是从Wikipedia的转储文件中构建的，每种语言都有一个单独的分割。每个示例包含一篇完整的Wikipedia文章的内容，并经过清理以去除标记和不需要的部分（如参考文献等）。数据集支持语言建模和掩码语言建模等任务，并且提供了多种语言的配置。

The Wikipedia dataset contains cleaned articles across all languages. This dataset is constructed from Wikipedia dumps, with a separate data split for each language. Each sample contains the full content of a Wikipedia article, which has been cleaned to remove markup and unwanted sections such as references. The dataset supports tasks including language modeling and masked language modeling, and provides configurations for multiple languages.

提供机构：

legacy-datasets

原始信息汇总

数据集卡片 - Wikipedia

数据集描述

数据集摘要

Wikipedia数据集包含所有语言的已清理文章。该数据集是从Wikipedia dump（https://dumps.wikimedia.org/）构建的，每个语言有一个分割。每个示例包含一个完整的Wikipedia文章内容，并进行了清理以去除markdown和不需要的部分（如参考文献等）。

文章使用mwparserfromhell工具解析，可以通过以下命令安装： bash pip install mwparserfromhell

然后，您可以按语言和日期加载Wikipedia的任何子集： python from datasets import load_dataset

load_dataset("wikipedia", language="sw", date="20220120")

您可以在这里找到完整的语言和日期列表。

一些Wikipedia子集已经由HuggingFace预处理，您可以直接加载： python from datasets import load_dataset

load_dataset("wikipedia", "20220301.en")

预处理的子集列表包括：

"20220301.de"
"20220301.en"
"20220301.fr"
"20220301.frr"
"20220301.it"
"20220301.simple"

支持的任务和排行榜

该数据集通常用于语言建模。

语言

您可以在这里找到语言列表。

数据集结构

数据实例

一个示例如下： json { "id": "1", "url": "https://simple.wikipedia.org/wiki/April", "title": "April", "text": "April is the fourth month..." }

数据字段

所有配置的数据字段相同：

id (str): 文章的ID。
url (str): 文章的URL。
title (str): 文章的标题。
text (str): 文章的文本内容。

数据分割

以下是几个配置的示例数量：

名称	训练集
20220301.de	2665357
20220301.en	6458670
20220301.fr	2402095
20220301.frr	15199
20220301.it	1743035
20220301.simple	205328

数据集创建

策划理由

更多信息需要

源数据

初始数据收集和规范化

更多信息需要

源语言生产者是谁？

更多信息需要

注释

使用数据的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

Wikipedia的大部分文本和许多图像都是共同许可的，使用Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA) 和 GNU Free Documentation License (GFDL)（未版本化，没有不变部分，封面文本或封底文本）。

引用信息

bibtex @ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }

贡献

感谢 @lewtun, @mariamabarham, @thomwolf, @lhoestq, @patrickvonplaten 添加此数据集。

搜集汇总

数据集介绍

构建方式

Wikipedia数据集由维基百科的各个语言版本的清理文章构成。该数据集从维基百科的备份（https://dumps.wikimedia.org/）中构建，每个语言版本有一个独立的分割。数据集中的每个实例包含一个完整的维基百科文章内容，经过清理以去除Markdown格式和不需要的部分（如参考文献等）。文章内容使用`mwparserfromhell`工具进行解析，该工具可以从PyPI安装。

特点

Wikipedia数据集具有以下特点：多语言支持，涵盖超过200种语言；数据量庞大，每个语言版本的训练集包含数百万至数十亿个字符；数据结构清晰，每个实例包含文章的ID、URL、标题和文本内容；数据集已预先处理，可以直接加载使用。

使用方法

使用Wikipedia数据集的方法如下：首先，从Hugging Face的datasets库中加载所需语言版本的Wikipedia数据集。例如，加载2022年3月1日的英语版本数据集，可以使用以下代码：`from datasets import load_dataset; load_dataset('wikipedia', '20220301.en')`。加载后，数据集将按照训练集、验证集和测试集进行分割，每个分割包含文章的ID、URL、标题和文本内容。用户可以根据需要选择相应的分割和数据字段进行进一步的分析和处理。

背景与挑战

背景概述

Wikipedia数据集源自全球最大、最广泛使用的在线百科全书——维基百科。该数据集包含经过清理的各语种文章，构建自维基百科的数据库，旨在为语言模型提供丰富的训练数据。数据集的创建时间可追溯至2022年3月，由Hugging Face团队进行整理和发布，核心研究人员包括Lew Tun、Mariam Aba Rahman、Thom Wolf、Lhoestq和Patrick von Platen等。Wikipedia数据集的发布对自然语言处理领域产生了深远影响，为语言模型的研究和开发提供了宝贵资源。

当前挑战

Wikipedia数据集在应用过程中面临诸多挑战。首先，数据集的多语言特性要求模型在处理不同语言时能够保持一致性和准确性。其次，数据清洗过程中可能存在的遗漏或错误会影响模型的学习效果。此外，由于维基百科的开放性，数据集中可能包含个人和敏感信息，如何在保护个人隐私的同时充分利用数据集是一个重要课题。最后，数据集的构建过程中，如何平衡数据集的规模和多样性也是一大挑战。

常用场景

经典使用场景

Wikipedia数据集作为自然语言处理领域的重要资源，被广泛应用于语言模型训练。其丰富的文本内容和多样的语言种类为模型提供了充足的学习材料，有助于提升模型在文本生成、完形填空等任务上的表现。同时，Wikipedia数据集也常用于构建知识图谱、信息抽取等任务，为机器学习算法提供了强大的数据支持。

实际应用

Wikipedia数据集在实际应用中发挥着重要作用。例如，在搜索引擎中，利用Wikipedia数据集训练的语言模型可以提供更准确、更相关的搜索结果。在智能问答系统中，Wikipedia数据集可以帮助模型更好地理解用户的问题，并提供更准确的答案。此外，Wikipedia数据集也常用于构建知识图谱，为各种知识密集型应用提供数据支持。

衍生相关工作

Wikipedia数据集衍生了许多经典工作。例如，基于Wikipedia数据集训练的语言模型GPT-3，在自然语言生成、文本分类等领域取得了突破性进展。此外，Wikipedia数据集也常用于构建知识图谱，如DBpedia等，为各种知识密集型应用提供数据支持。同时，Wikipedia数据集也常用于评估和比较不同语言模型的效果，推动了自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

legacy-datasets/wikipedia

数据集卡片 - Wikipedia

数据集描述

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据分割

数据集创建

策划理由

源数据

初始数据收集和规范化

源语言生产者是谁？

注释

注释过程

注释者是谁？

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见的讨论

其他已知限制

附加信息

数据集策展人

许可信息

引用信息

贡献