WanJuan-CC
收藏arXiv2024-03-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2402.19282v6
下载链接
链接失效反馈官方服务:
资源简介:
一个安全且高质量的开源英语网页文本数据集,源自Common Crawl数据,用于构建大规模预训练语言模型。
A secure, high-quality open-source English web text dataset sourced from the Common Crawl dataset, intended for building large-scale pre-trained language models.
创建时间:
2024-02-29



