Pile-CC
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Pile-CC
下载链接
链接失效反馈官方服务:
资源简介:
Pile-CC是一个基于Common Crawl的数据集,用于训练和研究目的。Common Crawl是一个从2008年开始收集的网站抓取数据集,包括网页、元数据和文本提取。然而,由于数据集的原始性质,其中的文本质量参差不齐。 为了改善数据质量,Pile-CC使用了jusText工具对Web Archive文件(包括页面的HTML)进行提取,从而产生了更高质量的文本输出。
提供机构:
OpenDataLab
创建时间:
2023-07-19



