five

WanJuan-CC

收藏
arXiv2024-03-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2402.19282v6
下载链接
链接失效反馈
官方服务:
资源简介:
一个安全且高质量的开源英语网页文本数据集,源自Common Crawl数据,用于构建大规模预训练语言模型。

A secure, high-quality open-source English web text dataset sourced from the Common Crawl dataset, intended for building large-scale pre-trained language models.
创建时间:
2024-02-29
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作