five

legacy-datasets_c4

收藏
Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/legacy-datasets_c4
下载链接
链接失效反馈
官方服务:
资源简介:
C4数据集是Common Crawl网络语料库的一个大规模、清洗后的版本,主要用于预训练语言模型和词表示。它包含多种变体,数据规模从15GB到2.3TB不等,格式为JSON。数据集中的每个样本都包含来源URL、文本内容和时间戳。AllenAI以ODC-BY协议发布此数据集,使用时需遵守Common Crawl的使用条款。
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作