German T5 Training corpus

github2022-02-20 更新2024-05-31 收录

下载链接：

https://github.com/GermanT5/corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于预训练德国T5模型，主要基于先前发布的GC4语料库。数据集包含多个文件，总大小为305.85GB，经过过滤处理，去除了包含HTML标签和网站链接的文档。

This dataset is utilized for the pre-training of the German T5 model, primarily based on the previously released GC4 corpus. The dataset comprises multiple files, with a total size of 305.85GB, and has undergone filtering processes to remove documents containing HTML tags and website links.

创建时间：

2022-02-19

原始信息汇总

德国T5训练语料库概述

数据集名称

German T5 Training corpus

数据集用途

用于预训练德国T5模型。

主要数据来源

GC4：德国巨型清洗过的Common Crawl语料库。

数据集下载

下载链接：GC4语料库头部包
下载命令： bash $ wget https://german-nlp-group.github.io/_static/file/gc4_corpus_head_urls.txt $ wget -i gc4_corpus_head_urls.txt
下载结果：102个档案，总大小185GB。

数据集处理

提取

使用exztactor.py脚本提取所有档案。
并行处理命令： bash $ find . -iname "*.tar.gz" | xargs -I% -P 10 python3 extractor.py %

过滤

过滤包含特定字符的文档，如HTML标签和网站链接。
使用filtering.py脚本进行过滤。
并行处理命令： bash $ find . -iname "*.txt" | xargs -I% -P 40 python3 filtering.py %

数据集概览

总大小：305.85GB（实际：286GB）
详细文件信息：

Filename Instances Tokens Subwords Size (GB)

... ... ... ... ...

Total: 1,246,200,856 40,809,047,964 59,581,348,634 305.85

数据集使用

用于构建TensorFlow数据集，支持T5模型的预训练。
需要安装tensorflow-datasets库并创建数据集。
数据集构建命令： bash $ tfds build
构建时间：约24小时。

搜集汇总

数据集介绍

构建方式

German T5 Training corpus数据集的构建基于GC4（German colossal, cleaned Common Crawl corpus）语料库，该语料库作为训练德语T5模型的主要数据源。首先，通过wget命令下载GC4语料库的HEAD包，共包含102个压缩文件，总计185GB。随后，使用extractor.py脚本并行解压这些文件，生成JSON格式的文本数据。为进一步提升数据质量，通过filtering.py脚本对文本进行过滤，去除包含HTML标签和URL的文档，最终生成305.85GB的过滤后数据集。

使用方法

该数据集的使用方法主要围绕TensorFlow数据集的构建与训练展开。首先，通过安装TensorFlow Datasets库并创建数据集模板，用户可自定义数据集的加载逻辑。在gc4_dataset.py脚本中，通过实现GeneratorBasedBuilder类，将过滤后的文本数据转换为TFRecords格式，便于在预训练过程中高效加载。数据集分为训练集和验证集两部分，训练集用于模型训练，验证集用于评估模型性能。最后，通过tfds build命令生成TensorFlow数据集，整个过程耗时约24小时。

背景与挑战

背景概述

German T5 Training corpus 数据集由 German NLP Group 开发，旨在为德语自然语言处理任务提供高质量的预训练语料。该数据集基于 GC4 语料库构建，GC4 是一个经过清洗的德语大规模通用爬虫语料库，涵盖了从2015年至2020年的广泛文本数据。该数据集的创建时间可追溯至2020年，主要研究人员和机构包括 German NLP Group 及其合作者。其核心研究问题在于如何通过大规模语料库的预训练，提升德语自然语言处理模型的性能，尤其是在文本生成、翻译和问答等任务中的表现。该数据集对德语 NLP 领域的影响力显著，为后续的德语语言模型研究提供了坚实的基础。

当前挑战

German T5 Training corpus 数据集在构建过程中面临多重挑战。首先，数据清洗和过滤是核心难题之一，由于原始 GC4 语料库包含大量噪声数据（如 HTML 标签、URL 等），如何高效地去除这些噪声并保留高质量文本成为关键。其次，数据规模庞大（超过300GB），处理和分析这些数据需要极高的计算资源和时间成本。此外，构建适用于 TensorFlow 的数据集格式（TFRecords）也带来了技术挑战，尤其是在数据并行处理和存储优化方面。最后，如何确保数据集的多样性和代表性，以覆盖不同领域和语言风格，也是构建过程中需要解决的重要问题。

常用场景

经典使用场景

German T5 Training corpus 数据集主要用于预训练德语T5模型。T5（Text-to-Text Transfer Transformer）模型是一种基于Transformer架构的通用文本生成模型，能够处理多种自然语言处理任务，如文本分类、机器翻译和问答系统等。该数据集通过提供大规模的德语文本语料，帮助研究人员构建和优化德语T5模型，从而提升其在德语相关任务中的表现。

解决学术问题

该数据集解决了德语自然语言处理领域中的关键问题，即缺乏大规模、高质量的德语文本语料。通过使用GC4语料库作为基础，研究人员能够构建一个经过清洗和过滤的德语数据集，从而为德语T5模型的预训练提供了坚实的基础。这不仅填补了德语NLP研究的空白，还为后续的模型优化和任务迁移提供了可靠的数据支持。

实际应用

在实际应用中，German T5 Training corpus 数据集被广泛用于开发德语相关的自然语言处理应用，如德语文本生成、机器翻译、文本摘要和情感分析等。通过预训练德语T5模型，企业和研究机构能够构建高效的德语NLP系统，应用于新闻媒体、电子商务、客户服务等多个领域，提升德语文本处理的自动化水平。

数据集最近研究

Filename	Instances	Tokens	Subwords	Size (GB)
...	...	...	...	...
Total:	1,246,200,856	40,809,047,964	59,581,348,634	305.85