five

c4

收藏
huggingface.co2025-03-25 收录
下载链接:
https://huggingface.co/datasets/legacy-datasets/c4
下载链接
链接失效反馈
官方服务:
资源简介:
A colossal, cleaned version of Common Crawl's web crawl corpus. Based on Common Crawl dataset: "https://commoncrawl.org". This is the processed version of Google's C4 dataset by AllenAI.

这是一个基于 Common Crawl 数据集的庞大、清洗过的网络爬虫语料库版本。该数据集源自于 Common Crawl 数据集(https://commoncrawl.org)。此外,该语料库亦为 AllenAI 对 Google 的 C4 数据集进行处理后的产物。
提供机构:
Hugging Face
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作