CCNet

Name: CCNet
Creator: OpenDataLab
Published: 2026-05-17 09:30:30
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/CCNet

下载链接

链接失效反馈

官方服务：

资源简介：

CCNet 是从 Common Crawl 中提取的数据集，其过滤过程与 OSCAR 不同。它是使用在 Wikipedia 上训练的语言模型构建的，以过滤掉质量差的文本，例如代码或表格。与 OSCAR 相比，CCNet 平均包含更长的文档，而 OSCAR 则淘汰了更小（通常更嘈杂）的文档。

CCNet is a dataset extracted from Common Crawl, whose filtering process differs from that of OSCAR. It is constructed using a language model trained on Wikipedia to filter out low-quality texts such as code or tables. Compared with OSCAR, CCNet contains longer documents on average, while OSCAR eliminates smaller (typically more noisy) documents.

提供机构：

OpenDataLab

创建时间：

2022-08-19

搜集汇总

数据集介绍