Pile-CC
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Pile-CC
下载链接
链接失效反馈官方服务:
资源简介:
Pile-CC是一个基于Common Crawl的数据集,用于训练和研究目的。Common Crawl是一个从2008年开始收集的网站抓取数据集,包括网页、元数据和文本提取。然而,由于数据集的原始性质,其中的文本质量参差不齐。 为了改善数据质量,Pile-CC使用了jusText工具对Web Archive文件(包括页面的HTML)进行提取,从而产生了更高质量的文本输出。
提供机构:
OpenDataLab
创建时间:
2023-07-19
搜集汇总
数据集介绍

背景与挑战
背景概述
Pile-CC是一个基于Common Crawl的文本数据集,专为训练和研究设计。它通过工具提取和分类过滤,提升了原始数据的质量,为自然语言处理任务提供了可靠的筛选子集。
以上内容由遇见数据集搜集并总结生成



