five

Pile-CC

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Pile-CC
下载链接
链接失效反馈
官方服务:
资源简介:
Pile-CC是一个基于Common Crawl的数据集,用于训练和研究目的。Common Crawl是一个从2008年开始收集的网站抓取数据集,包括网页、元数据和文本提取。然而,由于数据集的原始性质,其中的文本质量参差不齐。 为了改善数据质量,Pile-CC使用了jusText工具对Web Archive文件(包括页面的HTML)进行提取,从而产生了更高质量的文本输出。
提供机构:
OpenDataLab
创建时间:
2023-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作