five

aeg-data

收藏
Hugging Face2024-10-04 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/tartuNLP/aeg-data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置针对不同的语言(如德语、爱沙尼亚语、乌克兰语)和模型(如GPT-3、GPT-4、LLaMA、mT5、NLLB)。每个配置都有一个'train'分割,包含特定数量的示例和字节。数据集似乎用于训练语言模型,不同的版本针对特定的模型和归一化技术进行了优化。
提供机构:
TartuNLP
创建时间:
2024-10-04
原始信息汇总

数据集概述

数据集配置

德语数据集

  • de-cc100-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 229367687
      • 样本数: 1000000
    • 下载大小: 160462964
    • 数据集大小: 229367687
  • de-cc100-1M-mosesnorm

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 228838116
      • 样本数: 1000000
    • 下载大小: 160025462
    • 数据集大小: 228838116
  • de-cc100-gpt3-aeg-100k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 22763809
      • 样本数: 100000
    • 下载大小: 16327985
    • 数据集大小: 22763809
  • de-cc100-gpt3-aeg-19k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 4394341
      • 样本数: 19237
    • 下载大小: 3156346
    • 数据集大小: 4394341
  • de-cc100-gpt4t-aeg-19k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 4392923
      • 样本数: 19237
    • 下载大小: 3102038
    • 数据集大小: 4392923
  • de-cc100-llama-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 226719151
      • 样本数: 1000000
    • 下载大小: 159716823
    • 数据集大小: 226719151
  • de-cc100-mT5-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 126755855
      • 样本数: 1000000
    • 下载大小: 90483588
    • 数据集大小: 126755855
  • de-cc100-nllb-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 225848833
      • 样本数: 1000000
    • 下载大小: 158460855
    • 数据集大小: 225848833
  • de-cc100-prob-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 238516477
      • 样本数: 1000000
    • 下载大小: 186066466
    • 数据集大小: 238516477

爱沙尼亚语数据集

  • et-enc-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 100639980
      • 样本数: 1000000
    • 下载大小: 78591490
    • 数据集大小: 100639980
  • et-enc-1M-mosesnorm

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 100497249
      • 样本数: 1000000
    • 下载大小: 78513245
    • 数据集大小: 100497249
  • et-enc-gpt3-aeg-100k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 10103828
      • 样本数: 100000
    • 下载大小: 7961356
    • 数据集大小: 10103828
  • et-enc-gpt3-aeg-9k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 883933
      • 样本数: 8921
    • 下载大小: 698327
    • 数据集大小: 883933
  • et-enc-gpt4t-aeg-9k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 883911
      • 样本数: 8921
    • 下载大小: 691816
    • 数据集大小: 883911
  • et-enc-llama-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 101125996
      • 样本数: 1000000
    • 下载大小: 78960575
    • 数据集大小: 101125996
  • et-enc-mT5-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 77082122
      • 样本数: 1000000
    • 下载大小: 60888389
    • 数据集大小: 77082122
  • et-enc-nllb-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 100775034
      • 样本数: 1000000
    • 下载大小: 78745435
    • 数据集大小: 100775034
  • et-enc-prob-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 103365941
      • 样本数: 1000000
    • 下载大小: 87344358
    • 数据集大小: 103365941

乌克兰语数据集

  • uk-cc100-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 375366752
      • 样本数: 1000000
    • 下载大小: 209076197
    • 数据集大小: 375366752
  • uk-cc100-1M-mosesnorm

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 374181543
      • 样本数: 1000000
    • 下载大小: 208627421
    • 数据集大小: 374181543
  • uk-cc100-gpt3-aeg-100k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 37492338
      • 样本数: 100000
    • 下载大小: 20912779
    • 数据集大小: 37492338
  • uk-cc100-gpt3-aeg-33k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 12270138
      • 样本数: 32734
    • 下载大小: 6842969
    • 数据集大小: 12270138
  • uk-cc100-gpt4t-aeg-33k

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 12189725
      • 样本数: 32734
    • 下载大小: 6914641
    • 数据集大小: 12189725
  • uk-cc100-llama-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 375799531
      • 样本数: 1000000
    • 下载大小: 209387178
    • 数据集大小: 375799531
  • uk-cc100-mT5-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 207958552
      • 样本数: 1000000
    • 下载大小: 120196139
    • 数据集大小: 207958552
  • uk-cc100-nllb-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 372615382
      • 样本数: 1000000
    • 下载大小: 208032507
    • 数据集大小: 372615382
  • uk-cc100-prob-aeg-1M

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 390091509
      • 样本数: 1000000
    • 下载大小: 238916926
    • 数据集大小: 390091509
搜集汇总
数据集介绍
main_image_url
构建方式
aeg-data数据集基于CC-100语料库构建,涵盖了德语、爱沙尼亚语和乌克兰语等多种语言。该数据集通过不同的配置版本,如de-cc100-1M、et-enc-1M和uk-cc100-1M,分别针对不同语言进行了大规模文本数据的采集与整理。每个配置版本均包含100万条文本样本,确保了数据量的充足性。此外,部分配置还通过Moses标准化处理,进一步提升了数据的规范性。
特点
aeg-data数据集的特点在于其多样化的语言覆盖和丰富的文本内容。每个配置版本均以纯文本形式存储,便于直接用于自然语言处理任务。数据集还提供了不同规模的子集,如100k和19k样本的版本,便于用户根据需求灵活选择。此外,部分配置经过GPT-3、GPT-4等模型的增强处理,进一步提升了数据的多样性和质量。
使用方法
aeg-data数据集适用于多种自然语言处理任务,如语言模型训练、机器翻译和文本生成等。用户可通过Hugging Face平台直接下载所需配置版本,数据以文本文件形式存储,便于加载和处理。对于特定任务,用户可选择经过增强处理的配置版本,以获取更高质量的训练数据。数据集的分割方式清晰,用户可根据需求灵活选择训练集进行模型训练和评估。
背景与挑战
背景概述
aeg-data数据集是一个多语言文本数据集,专注于德语、爱沙尼亚语和乌克兰语的自然语言处理任务。该数据集由多个配置组成,涵盖了不同语言和不同规模的文本数据,旨在为多语言模型训练提供高质量的语言资源。其核心研究问题在于如何通过大规模文本数据提升多语言模型的泛化能力和跨语言理解能力。该数据集的创建时间不详,但其内容表明其与CC100数据集有密切联系,CC100数据集是广泛用于语言模型训练的开源多语言数据集之一。aeg-data的出现为多语言自然语言处理领域提供了新的研究工具,特别是在低资源语言的模型训练中具有重要价值。
当前挑战
aeg-data数据集面临的挑战主要体现在两个方面。首先,多语言数据集的构建需要解决语言多样性和数据平衡问题,尤其是在低资源语言(如爱沙尼亚语)中,如何获取足够的高质量文本数据是一个关键难题。其次,数据预处理和标准化过程中,不同语言的文本规范化(如mosesnorm配置)可能会引入噪声或信息损失,影响模型的训练效果。此外,如何确保数据集的多样性和代表性,避免偏见和重复数据,也是构建过程中需要克服的技术挑战。这些挑战不仅影响数据集的质量,也直接关系到多语言模型的性能和应用效果。
常用场景
经典使用场景
aeg-data数据集在自然语言处理领域中被广泛用于语言模型的训练与评估。其包含的多种语言和不同规模的文本数据,为研究者提供了丰富的语料资源,尤其是在德语、爱沙尼亚语和乌克兰语等语言的文本处理任务中表现突出。通过该数据集,研究者可以构建和优化多语言模型,提升模型在跨语言任务中的泛化能力。
衍生相关工作
aeg-data数据集衍生了多项经典研究工作,尤其是在多语言模型和低资源语言处理领域。基于该数据集,研究者开发了多种先进的预训练语言模型,如mT5和NLLB,这些模型在多语言任务中表现出色。此外,该数据集还推动了多语言文本生成和跨语言迁移学习的研究,为自然语言处理领域的进一步发展提供了重要基础。
数据集最近研究
最新研究方向
在自然语言处理领域,aeg-data数据集的最新研究方向聚焦于多语言文本生成与模型微调。该数据集通过提供多种语言配置(如德语、爱沙尼亚语和乌克兰语)及不同规模的子集,支持研究人员探索跨语言模型的泛化能力与适应性。特别是,基于GPT-3、GPT-4、LLaMA和mT5等先进模型的微调版本,为低资源语言的文本生成任务提供了新的实验平台。当前研究热点包括如何利用这些数据集优化多语言模型的性能,以及在低资源语言场景下提升生成文本的质量与多样性。这一方向不仅推动了多语言NLP技术的发展,也为全球语言资源的均衡利用提供了重要支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作