legacy-datasets/c4
收藏Hugging Face2024-03-05 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/legacy-datasets/c4
下载链接
链接失效反馈官方服务:
资源简介:
C4数据集是一个基于Common Crawl网络爬取语料库的大规模、经过清理的英文文本数据集。该数据集由AllenAI准备,包含四个变体:`en`、`en.noblocklist`、`en.noclean`和`realnewslike`。数据集主要用于预训练语言模型和词表示。数据集的每个实例包含`url`、`text`和`timestamp`三个字段。数据集的结构包括训练集和验证集,具体的数据量在README中有详细说明。数据集的创建过程涉及从Common Crawl中提取自然语言文本,并进行去重和语言检测。数据集的使用受到ODC-BY许可证和Common Crawl使用条款的约束。
提供机构:
legacy-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: C4
- 标注创建者: 无标注
- 语言创建者: 发现
- 语言: 英语
- 许可证: ODC-BY
- 多语言性: 多语言
- 大小分类: 100M<n<1B
- 源数据集: 原始数据集
- 任务分类:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
- PapersWithCode ID: c4
数据集配置
配置名称: en
- 特征:
text: 字符串timestamp: 字符串url: 字符串
- 分割:
train:- 字节数: 828589180707
- 样本数: 364868892
validation:- 字节数: 825767266
- 样本数: 364608
- 下载大小: 326778635540
- 数据集大小: 1657178361414
配置名称: en.noblocklist
- 特征:
text: 字符串timestamp: 字符串url: 字符串
- 分割:
train:- 字节数: 1029628201361
- 样本数: 393391519
validation:- 字节数: 1025606012
- 样本数: 393226
- 下载大小: 406611392434
- 数据集大小: 2059256402722
配置名称: realnewslike
- 特征:
text: 字符串timestamp: 字符串url: 字符串
- 分割:
train:- 字节数: 38165657946
- 样本数: 13799838
validation:- 字节数: 37875873
- 样本数: 13863
- 下载大小: 15419740744
- 数据集大小: 76331315892
配置名称: en.noclean
- 特征:
text: 字符串timestamp: 字符串url: 字符串
- 分割:
train:- 字节数: 6715509699938
- 样本数: 1063805381
validation:- 字节数: 6706356913
- 样本数: 1065029
- 下载大小: 2430376268625
- 数据集大小: 6722216056851
搜集汇总
背景与挑战
背景概述
C4数据集是一个基于Common Crawl的大规模英文文本数据集,由AllenAI准备并经过清理和去重处理,主要用于语言模型预训练。数据集包含四个变体,每个实例包括url、text和timestamp字段,结构分为训练集和验证集,使用受ODC-BY许可证和Common Crawl条款约束。
以上内容由遇见数据集搜集并总结生成



