German Wikipedia Text Corpus

github2024-02-02 更新2024-05-31 收录

下载链接：

https://github.com/t-systems-on-site-services-gmbh/german-wikipedia-text-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个来自维基百科的德语文本语料库，经过清洗、预处理和句子分割。其目的是用于训练如fastText或ELMo深度上下文词表示等NLP嵌入。该语料库不仅包含维基的文章空间，还包含评论，以增加文本语料库的规模和语言的多样性，从而提高处理邮件、聊天、推文或支持票据等对话时的下游任务质量。

This is a German text corpus sourced from Wikipedia, which has been cleaned, preprocessed, and segmented into sentences. It is intended for training NLP embeddings such as fastText or ELMo deep contextual word representations. The corpus not only includes the article space of Wikipedia but also incorporates comments to enhance the scale and linguistic diversity of the text corpus, thereby improving the quality of downstream tasks such as processing emails, chats, tweets, or support tickets.

创建时间：

2019-06-03

原始信息汇总

数据集概述

数据集名称

German Wikipedia Text Corpus

数据集用途

用于训练NLP嵌入模型，如fastText和ELMo Deep contextualized word representations。

数据集特点

包含维基百科的文章空间及评论，提供更丰富的文本内容和非正式语言。
有助于处理邮件、聊天、推文或支持票等对话类下游任务。

数据集生成过程

数据源：维基百科的dewiki-20181001-pages-meta-current.xml.bz2数据转储。
使用WikiExtractor工具提取XML转储，并进行了修改以包含讨论内容。
使用SoMaJo进行分词和句子分割，比较了spaCy和gensim但效果不如SoMaJo。
文章标题和部分标记已移除。
数据在句子级别上使用Linux的shuf命令进行了随机化处理。

数据集下载

文件名：wiki-all-shuf.tgz及其分卷
下载链接：wiki-all-shuf.tgz.part-00
校验值：
- MD5: 9cd27b9a22ee4de391435b4bcbb30428
- SHA1: 66ccc99ccfeb4b546f9c888af9b23e5fc1a67236

数据集解压

解压命令：

cat wiki-all-shuf.tgz.part-* > wiki-all-shuf.tgz tar xvfz wiki-all-shuf.tgz

数据集许可证

Creative Commons Attribution-ShareAlike 3.0 Unported license

搜集汇总

数据集介绍

构建方式

German Wikipedia Text Corpus的构建基于维基百科的德语数据转储，具体使用了`dewiki-20181001-pages-meta-current.xml.bz2`文件，该文件不仅包含文章内容，还涵盖了讨论部分。通过修改的WikiExtractor工具提取XML数据，并利用自定义的Python工具进行进一步处理。处理过程中，使用了SoMaJo进行分词和句子分割，同时移除了文章标题和部分标记。最后，通过Linux的`shuf`命令对句子级别进行随机化处理，确保数据的多样性和随机性。

使用方法

使用German Wikipedia Text Corpus时，用户需从提供的链接下载分卷压缩文件，并通过Linux或macOS的命令行工具进行解压。解压后，用户可以直接将文本数据应用于NLP模型的训练，如fastText或ELMo。由于数据集已经过预处理和随机化处理，用户无需进行额外的数据清洗或分割操作，可直接用于下游任务的训练和评估。数据集遵循Creative Commons Attribution-ShareAlike 3.0 Unported许可，确保了使用的合法性和开放性。

背景与挑战

背景概述

German Wikipedia Text Corpus 是一个基于德语维基百科的文本语料库，旨在为自然语言处理（NLP）任务提供高质量的文本数据。该数据集由 T-Systems On-Site Services GmbH 于2018年创建，主要用于训练诸如 fastText 和 ELMo 等词嵌入模型。其独特之处在于不仅包含了维基百科的文章内容，还整合了讨论区的评论，从而扩展了语料库的多样性，使其更适用于处理非正式语言场景，如邮件、聊天、推文或支持工单。通过使用 WikiExtractor 工具对维基百科的 XML 数据源进行提取，并结合 SoMaJo 进行分词和句子分割，该数据集在德语 NLP 领域具有重要的应用价值。

当前挑战

German Wikipedia Text Corpus 在构建和应用过程中面临多重挑战。首先，维基百科的评论部分包含大量非正式语言和噪声数据，如何有效清理和预处理这些数据以提升模型训练效果是一个关键问题。其次，德语作为一种高度屈折的语言，其复杂的语法结构和词形变化对分词和句子分割工具提出了更高要求，尽管 SoMaJo 在该任务中表现优异，但仍需进一步优化以应对多样化的语言现象。此外，数据集的构建过程中需要对原始 XML 数据进行复杂的提取和转换，这一过程不仅耗时，还需确保数据的完整性和一致性。最后，如何将这一数据集有效应用于实际 NLP 任务，如对话系统或情感分析，仍需进一步探索和验证。

常用场景

经典使用场景

German Wikipedia Text Corpus 作为德语自然语言处理领域的重要资源，广泛应用于训练和评估各种语言模型。其经典使用场景包括训练词嵌入模型如fastText和ELMo，这些模型在文本分类、情感分析、机器翻译等任务中表现出色。通过包含文章和讨论区的文本，该数据集能够更好地捕捉日常语言的使用模式，提升模型在实际应用中的表现。

解决学术问题

该数据集解决了德语自然语言处理研究中数据稀缺和质量参差不齐的问题。通过提供经过清洗、预处理和句子分割的文本，研究人员能够更高效地训练和评估模型。其包含的讨论区文本为研究非正式语言和对话系统提供了宝贵资源，推动了德语NLP领域的技术进步。

实际应用

在实际应用中，German Wikipedia Text Corpus 被广泛用于开发智能客服系统、社交媒体分析工具和自动翻译系统。其丰富的文本内容和多样的语言风格使得模型能够更好地理解和生成自然语言，提升了这些系统在德语环境中的准确性和用户体验。

数据集最近研究