c4
收藏huggingface.co2025-03-25 收录
下载链接:
https://huggingface.co/datasets/legacy-datasets/c4
下载链接
链接失效反馈官方服务:
资源简介:
A colossal, cleaned version of Common Crawl's web crawl corpus.
Based on Common Crawl dataset: "https://commoncrawl.org".
This is the processed version of Google's C4 dataset by AllenAI.
这是一个基于 Common Crawl 数据集的庞大、清洗过的网络爬虫语料库版本。该数据集源自于 Common Crawl 数据集(https://commoncrawl.org)。此外,该语料库亦为 AllenAI 对 Google 的 C4 数据集进行处理后的产物。
提供机构:
Hugging Face



