five

legacy-datasets/c4

收藏
Hugging Face2024-03-05 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/legacy-datasets/c4
下载链接
链接失效反馈
官方服务:
资源简介:
C4数据集是一个基于Common Crawl网络爬取语料库的大规模、经过清理的英文文本数据集。该数据集由AllenAI准备,包含四个变体:`en`、`en.noblocklist`、`en.noclean`和`realnewslike`。数据集主要用于预训练语言模型和词表示。数据集的每个实例包含`url`、`text`和`timestamp`三个字段。数据集的结构包括训练集和验证集,具体的数据量在README中有详细说明。数据集的创建过程涉及从Common Crawl中提取自然语言文本,并进行去重和语言检测。数据集的使用受到ODC-BY许可证和Common Crawl使用条款的约束。
提供机构:
legacy-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: C4
  • 标注创建者: 无标注
  • 语言创建者: 发现
  • 语言: 英语
  • 许可证: ODC-BY
  • 多语言性: 多语言
  • 大小分类: 100M<n<1B
  • 源数据集: 原始数据集
  • 任务分类:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模
  • PapersWithCode ID: c4

数据集配置

配置名称: en

  • 特征:
    • text: 字符串
    • timestamp: 字符串
    • url: 字符串
  • 分割:
    • train:
      • 字节数: 828589180707
      • 样本数: 364868892
    • validation:
      • 字节数: 825767266
      • 样本数: 364608
  • 下载大小: 326778635540
  • 数据集大小: 1657178361414

配置名称: en.noblocklist

  • 特征:
    • text: 字符串
    • timestamp: 字符串
    • url: 字符串
  • 分割:
    • train:
      • 字节数: 1029628201361
      • 样本数: 393391519
    • validation:
      • 字节数: 1025606012
      • 样本数: 393226
  • 下载大小: 406611392434
  • 数据集大小: 2059256402722

配置名称: realnewslike

  • 特征:
    • text: 字符串
    • timestamp: 字符串
    • url: 字符串
  • 分割:
    • train:
      • 字节数: 38165657946
      • 样本数: 13799838
    • validation:
      • 字节数: 37875873
      • 样本数: 13863
  • 下载大小: 15419740744
  • 数据集大小: 76331315892

配置名称: en.noclean

  • 特征:
    • text: 字符串
    • timestamp: 字符串
    • url: 字符串
  • 分割:
    • train:
      • 字节数: 6715509699938
      • 样本数: 1063805381
    • validation:
      • 字节数: 6706356913
      • 样本数: 1065029
  • 下载大小: 2430376268625
  • 数据集大小: 6722216056851
搜集汇总
背景与挑战
背景概述
C4数据集是一个基于Common Crawl的大规模英文文本数据集,由AllenAI准备并经过清理和去重处理,主要用于语言模型预训练。数据集包含四个变体,每个实例包括url、text和timestamp字段,结构分为训练集和验证集,使用受ODC-BY许可证和Common Crawl条款约束。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作