five

CCNet

收藏
arXiv2019-11-15 更新2024-06-21 收录
下载链接:
https://commoncrawl.org/about/
下载链接
链接失效反馈
官方服务:
资源简介:
CCNet是由Facebook AI创建的一个大规模单语数据集,旨在从Common Crawl中提取高质量文本数据。该数据集包含15亿文档,覆盖174种语言,其中英语文档达到7亿,总Tokens数为5320亿。创建过程中,采用了文档去重和语言识别技术,并通过与高质量数据源如Wikipedia的相似度筛选文档。CCNet主要用于训练文本表示模型,特别是在低资源语言上,以提高自然语言处理任务的性能。
提供机构:
Facebook AI
创建时间:
2019-11-01
搜集汇总
背景与挑战
背景概述
CCNet是由Facebook AI创建的大规模单语数据集,包含15亿文档覆盖174种语言,总Tokens数达5320亿,通过文档去重和相似度筛选确保高质量。该数据集主要用于训练文本表示模型,特别针对低资源语言以提升自然语言处理任务性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作