aeg-data

Name: aeg-data
Creator: TartuNLP
Published: 2024-10-04 06:36:52
License: 暂无描述

Hugging Face2024-10-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/tartuNLP/aeg-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置针对不同的语言（如德语、爱沙尼亚语、乌克兰语）和模型（如GPT-3、GPT-4、LLaMA、mT5、NLLB）。每个配置都有一个'train'分割，包含特定数量的示例和字节。数据集似乎用于训练语言模型，不同的版本针对特定的模型和归一化技术进行了优化。

提供机构：

TartuNLP

创建时间：

2024-10-04

原始信息汇总

数据集概述

数据集配置

德语数据集

de-cc100-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 229367687
  - 样本数: 1000000
- 下载大小: 160462964
- 数据集大小: 229367687
de-cc100-1M-mosesnorm
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 228838116
  - 样本数: 1000000
- 下载大小: 160025462
- 数据集大小: 228838116
de-cc100-gpt3-aeg-100k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 22763809
  - 样本数: 100000
- 下载大小: 16327985
- 数据集大小: 22763809
de-cc100-gpt3-aeg-19k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 4394341
  - 样本数: 19237
- 下载大小: 3156346
- 数据集大小: 4394341
de-cc100-gpt4t-aeg-19k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 4392923
  - 样本数: 19237
- 下载大小: 3102038
- 数据集大小: 4392923
de-cc100-llama-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 226719151
  - 样本数: 1000000
- 下载大小: 159716823
- 数据集大小: 226719151
de-cc100-mT5-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 126755855
  - 样本数: 1000000
- 下载大小: 90483588
- 数据集大小: 126755855
de-cc100-nllb-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 225848833
  - 样本数: 1000000
- 下载大小: 158460855
- 数据集大小: 225848833
de-cc100-prob-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 238516477
  - 样本数: 1000000
- 下载大小: 186066466
- 数据集大小: 238516477

爱沙尼亚语数据集

et-enc-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 100639980
  - 样本数: 1000000
- 下载大小: 78591490
- 数据集大小: 100639980
et-enc-1M-mosesnorm
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 100497249
  - 样本数: 1000000
- 下载大小: 78513245
- 数据集大小: 100497249
et-enc-gpt3-aeg-100k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 10103828
  - 样本数: 100000
- 下载大小: 7961356
- 数据集大小: 10103828
et-enc-gpt3-aeg-9k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 883933
  - 样本数: 8921
- 下载大小: 698327
- 数据集大小: 883933
et-enc-gpt4t-aeg-9k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 883911
  - 样本数: 8921
- 下载大小: 691816
- 数据集大小: 883911
et-enc-llama-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 101125996
  - 样本数: 1000000
- 下载大小: 78960575
- 数据集大小: 101125996
et-enc-mT5-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 77082122
  - 样本数: 1000000
- 下载大小: 60888389
- 数据集大小: 77082122
et-enc-nllb-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 100775034
  - 样本数: 1000000
- 下载大小: 78745435
- 数据集大小: 100775034
et-enc-prob-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 103365941
  - 样本数: 1000000
- 下载大小: 87344358
- 数据集大小: 103365941

乌克兰语数据集

uk-cc100-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 375366752
  - 样本数: 1000000
- 下载大小: 209076197
- 数据集大小: 375366752
uk-cc100-1M-mosesnorm
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 374181543
  - 样本数: 1000000
- 下载大小: 208627421
- 数据集大小: 374181543
uk-cc100-gpt3-aeg-100k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 37492338
  - 样本数: 100000
- 下载大小: 20912779
- 数据集大小: 37492338
uk-cc100-gpt3-aeg-33k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 12270138
  - 样本数: 32734
- 下载大小: 6842969
- 数据集大小: 12270138
uk-cc100-gpt4t-aeg-33k
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 12189725
  - 样本数: 32734
- 下载大小: 6914641
- 数据集大小: 12189725
uk-cc100-llama-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 375799531
  - 样本数: 1000000
- 下载大小: 209387178
- 数据集大小: 375799531
uk-cc100-mT5-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 207958552
  - 样本数: 1000000
- 下载大小: 120196139
- 数据集大小: 207958552
uk-cc100-nllb-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 372615382
  - 样本数: 1000000
- 下载大小: 208032507
- 数据集大小: 372615382
uk-cc100-prob-aeg-1M
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 390091509
  - 样本数: 1000000
- 下载大小: 238916926
- 数据集大小: 390091509

搜集汇总

数据集介绍

构建方式

aeg-data数据集基于CC-100语料库构建，涵盖了德语、爱沙尼亚语和乌克兰语等多种语言。该数据集通过不同的配置版本，如de-cc100-1M、et-enc-1M和uk-cc100-1M，分别针对不同语言进行了大规模文本数据的采集与整理。每个配置版本均包含100万条文本样本，确保了数据量的充足性。此外，部分配置还通过Moses标准化处理，进一步提升了数据的规范性。

特点

aeg-data数据集的特点在于其多样化的语言覆盖和丰富的文本内容。每个配置版本均以纯文本形式存储，便于直接用于自然语言处理任务。数据集还提供了不同规模的子集，如100k和19k样本的版本，便于用户根据需求灵活选择。此外，部分配置经过GPT-3、GPT-4等模型的增强处理，进一步提升了数据的多样性和质量。

使用方法

aeg-data数据集适用于多种自然语言处理任务，如语言模型训练、机器翻译和文本生成等。用户可通过Hugging Face平台直接下载所需配置版本，数据以文本文件形式存储，便于加载和处理。对于特定任务，用户可选择经过增强处理的配置版本，以获取更高质量的训练数据。数据集的分割方式清晰，用户可根据需求灵活选择训练集进行模型训练和评估。

背景与挑战

背景概述

aeg-data数据集是一个多语言文本数据集，专注于德语、爱沙尼亚语和乌克兰语的自然语言处理任务。该数据集由多个配置组成，涵盖了不同语言和不同规模的文本数据，旨在为多语言模型训练提供高质量的语言资源。其核心研究问题在于如何通过大规模文本数据提升多语言模型的泛化能力和跨语言理解能力。该数据集的创建时间不详，但其内容表明其与CC100数据集有密切联系，CC100数据集是广泛用于语言模型训练的开源多语言数据集之一。aeg-data的出现为多语言自然语言处理领域提供了新的研究工具，特别是在低资源语言的模型训练中具有重要价值。

当前挑战

aeg-data数据集面临的挑战主要体现在两个方面。首先，多语言数据集的构建需要解决语言多样性和数据平衡问题，尤其是在低资源语言（如爱沙尼亚语）中，如何获取足够的高质量文本数据是一个关键难题。其次，数据预处理和标准化过程中，不同语言的文本规范化（如mosesnorm配置）可能会引入噪声或信息损失，影响模型的训练效果。此外，如何确保数据集的多样性和代表性，避免偏见和重复数据，也是构建过程中需要克服的技术挑战。这些挑战不仅影响数据集的质量，也直接关系到多语言模型的性能和应用效果。

常用场景

经典使用场景

aeg-data数据集在自然语言处理领域中被广泛用于语言模型的训练与评估。其包含的多种语言和不同规模的文本数据，为研究者提供了丰富的语料资源，尤其是在德语、爱沙尼亚语和乌克兰语等语言的文本处理任务中表现突出。通过该数据集，研究者可以构建和优化多语言模型，提升模型在跨语言任务中的泛化能力。

衍生相关工作

aeg-data数据集衍生了多项经典研究工作，尤其是在多语言模型和低资源语言处理领域。基于该数据集，研究者开发了多种先进的预训练语言模型，如mT5和NLLB，这些模型在多语言任务中表现出色。此外，该数据集还推动了多语言文本生成和跨语言迁移学习的研究，为自然语言处理领域的进一步发展提供了重要基础。

数据集最近研究