CCNet
收藏arXiv2019-11-15 更新2024-06-21 收录
下载链接:
https://commoncrawl.org/about/
下载链接
链接失效反馈官方服务:
资源简介:
CCNet是由Facebook AI创建的一个大规模单语数据集,旨在从Common Crawl中提取高质量文本数据。该数据集包含15亿文档,覆盖174种语言,其中英语文档达到7亿,总Tokens数为5320亿。创建过程中,采用了文档去重和语言识别技术,并通过与高质量数据源如Wikipedia的相似度筛选文档。CCNet主要用于训练文本表示模型,特别是在低资源语言上,以提高自然语言处理任务的性能。
提供机构:
Facebook AI
创建时间:
2019-11-01
搜集汇总
背景与挑战
背景概述
CCNet是由Facebook AI创建的大规模单语数据集,包含15亿文档覆盖174种语言,总Tokens数达5320亿,通过文档去重和相似度筛选确保高质量。该数据集主要用于训练文本表示模型,特别针对低资源语言以提升自然语言处理任务性能。
以上内容由遇见数据集搜集并总结生成



