CCNet

Name: CCNet
Creator: Facebook AI
Published: 2019-11-15 08:03:54
License: 暂无描述

arXiv2019-11-15 更新2024-06-21 收录

下载链接：

https://commoncrawl.org/about/

下载链接

链接失效反馈

官方服务：

资源简介：

CCNet是由Facebook AI创建的一个大规模单语数据集，旨在从Common Crawl中提取高质量文本数据。该数据集包含15亿文档，覆盖174种语言，其中英语文档达到7亿，总Tokens数为5320亿。创建过程中，采用了文档去重和语言识别技术，并通过与高质量数据源如Wikipedia的相似度筛选文档。CCNet主要用于训练文本表示模型，特别是在低资源语言上，以提高自然语言处理任务的性能。

提供机构：

Facebook AI

创建时间：

2019-11-01

搜集汇总

背景与挑战

背景概述

CCNet是由Facebook AI创建的大规模单语数据集，包含15亿文档覆盖174种语言，总Tokens数达5320亿，通过文档去重和相似度筛选确保高质量。该数据集主要用于训练文本表示模型，特别针对低资源语言以提升自然语言处理任务性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集