five

german-nlp-group/german_common_crawl

收藏
Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/german-nlp-group/german_common_crawl
下载链接
链接失效反馈
官方服务:
资源简介:
GermanCommonCrawl数据集是从Common Crawl中提取的德语数据,经过去重和过滤处理,用于预训练德语语言模型。数据集的总大小在去重后为142百万页/194 GB(压缩后),去重前为263百万页/392 GB(压缩后)。数据集仅包含训练数据,支持的任务是无监督的德语语言模型预训练。数据集的创建过程涉及大量的计算资源,并且数据集是公开可用的,以便其他人可以轻松地使用它来训练模型。

The GermanCommonCrawl dataset consists of German-language data extracted from Common Crawl, which has undergone deduplication and filtering procedures, and is intended for pre-training German language models. Following deduplication, the total size of the dataset is 142 million pages / 194 GB (compressed), whereas the size before deduplication totals 263 million pages / 392 GB (compressed). This dataset exclusively contains training data, with the supported task being unsupervised pre-training for German language models. The curation of this dataset required substantial computational resources, and it is publicly accessible to enable other researchers and practitioners to readily use it for model training.
提供机构:
german-nlp-group
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 名称: GermanCommonCrawl
  • 描述: 从Common Crawl提取的德语数据集,用于预训练德语语言模型。
  • 统计数据:
    • 去重后总大小: 142 Mio 页 / 194 GB (Gzipped)
    • 去重前总大小: 263 Mio 页 / 392 GB (Gzipped)

支持的任务和排行榜

  • 任务: 预训练德语语言模型(无监督学习)

语言

  • 主要语言: 德语
  • 其他语言: 部分网页可能包含其他语言,可通过language_score属性过滤。

数据集结构

数据实例

  • 示例:

    {url: http://my-shop.ru/shop/books/545473.html, ...}

数据字段

  • 详情: 待补充

数据分割

  • 分割方式: 仅训练集

数据集创建

精选理由

  • 目的: 提供大规模德语数据集,以提高模型性能。
  • 资源需求: 超过100k CPU小时计算时间。

源数据

  • 来源: 从Common Crawl的多个月份快照中筛选。
  • 筛选月份: 2015-48 至 2020-10

初始数据收集和标准化

  • 处理工具: 使用CC_Net进行筛选和去重。
  • 数据质量: 仅包含高质量文本的“头部”部分。

使用数据时的考虑

社会影响

  • 详情: 待补充

偏见讨论

  • 详情: 待补充

其他已知限制

  • 详情: 待补充

附加信息

数据集管理员

  • 详情: 待补充

许可信息

  • 详情: 待补充

引用信息

@inproceedings{wenzek2020ccnet, title={CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data}, author={Wenzek, Guillaume and Lachaux, Marie-Anne and Conneau, Alexis and Chaudhary, Vishrav and Guzm{a}n, Francisco and Joulin, Armand and Grave, {E}douard}, booktitle={Proceedings of The 12th Language Resources and Evaluation Conference}, pages={4003--4012}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作