Wikipedia 2 Corpus

github2022-07-17 更新2024-05-31 收录

下载链接：

https://github.com/GermanT5/wikipedia2corpus

下载链接

链接失效反馈

官方服务：

资源简介：

用于自监督NLP模型训练的Wikipedia文本语料库，包括英语和德语两种语言的预处理数据集。

A Wikipedia text corpus for self-supervised NLP model training, including preprocessed datasets in both English and German languages.

创建时间：

2022-02-21

原始信息汇总

数据集概述

数据集名称

Wikipedia 2 Corpus

数据集内容

包含英语和德语两种语言的文本数据。
数据集通过WikiExtractor工具从维基百科数据库中提取，并使用SoMaJo工具将文本分割成句子。

数据集结构

每行包含一个句子。
每篇文章之间以空行分隔。

数据集下载信息

德语文本数据集

大小：6.1G（未压缩）
行数：59,475,915
下载链接：

英语文本数据集

许可证信息

文本数据集：遵循Creative Commons Attribution-ShareAlike 3.0 Unported license。
脚本：遵循MIT License。

搜集汇总

数据集介绍

构建方式

Wikipedia 2 Corpus的构建过程始于从Wikipedia数据库转储中提取文本数据。通过使用WikiExtractor工具，原始XML格式的Wikipedia文章被提取并转换为纯文本格式。随后，利用SoMaJo工具将文本分割成单句，每行仅包含一个句子，并在每篇文章之间插入空行以区分不同内容。最终生成的语料库经过清理和格式化，适用于自监督的自然语言处理模型训练。

使用方法

使用Wikipedia 2 Corpus时，用户可以通过GitHub提供的下载链接获取德语和英语的语料库文件。下载后，用户需将多个分卷文件合并并解压缩，生成完整的语料库文件。对于需要进一步处理的用户，可以通过命令行工具去除空行或使用提供的Python脚本进行自定义处理。数据集适用于训练自监督模型，用户可根据需求调整输入和输出目录，并运行脚本生成适合特定任务的语料库。

背景与挑战

背景概述

Wikipedia 2 Corpus 是由 GermanT5 团队于2022年创建的一个多语言文本语料库，旨在为自监督自然语言处理（NLP）模型的训练提供高质量的文本数据。该数据集基于维基百科的数据库转储，通过 WikiExtractor 工具提取文本，并使用 SoMaJo 进行句子分割，最终生成了包含英语和德语的文本语料库。该语料库的构建不仅为 NLP 研究提供了丰富的语言资源，还推动了跨语言模型训练的发展。其开源性和广泛的应用场景使其成为 NLP 领域的重要数据集之一。

当前挑战

Wikipedia 2 Corpus 在构建过程中面临多重挑战。首先，维基百科的原始数据包含大量非结构化信息，如表格、注释和超链接，如何有效提取和清理这些数据以生成高质量的文本语料库是一个技术难题。其次，多语言数据的处理需要解决语言差异带来的复杂性，例如德语和英语在语法和词汇上的显著差异。此外，数据集的规模庞大（英语语料库约14G，德语语料库约6.1G），对存储、传输和处理能力提出了较高要求。最后，确保数据的一致性和完整性，以及在多语言环境下保持语义的准确性，也是构建过程中的关键挑战。

常用场景

经典使用场景

Wikipedia 2 Corpus 数据集广泛应用于自然语言处理（NLP）领域，特别是在自监督学习模型的训练中。通过提取和清理维基百科文本，该数据集为研究人员提供了一个高质量的文本语料库，适用于语言模型的预训练和微调。其经典使用场景包括文本生成、机器翻译、语义分析等任务，为这些任务提供了丰富的语言数据支持。

解决学术问题

Wikipedia 2 Corpus 数据集解决了NLP领域中数据稀缺和质量参差不齐的问题。通过提供经过清洗和分句处理的维基百科文本，研究人员能够更高效地进行语言模型的训练和评估。该数据集的使用显著提升了模型在低资源语言（如德语）上的表现，同时也为跨语言任务提供了坚实的基础。

实际应用

在实际应用中，Wikipedia 2 Corpus 数据集被广泛用于构建和优化各类NLP系统。例如，在智能客服系统中，该数据集用于训练对话生成模型，提升系统的自然语言理解能力。此外，该数据集还被应用于搜索引擎的语义匹配和推荐系统的内容理解，显著提升了用户体验和系统性能。

数据集最近研究