five

Pile-CC

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Pile-CC
下载链接
链接失效反馈
官方服务:
资源简介:
Pile-CC是一个基于Common Crawl的数据集,用于训练和研究目的。Common Crawl是一个从2008年开始收集的网站抓取数据集,包括网页、元数据和文本提取。然而,由于数据集的原始性质,其中的文本质量参差不齐。 为了改善数据质量,Pile-CC使用了jusText工具对Web Archive文件(包括页面的HTML)进行提取,从而产生了更高质量的文本输出。
提供机构:
OpenDataLab
创建时间:
2023-07-19
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Pile-CC是一个基于Common Crawl的文本数据集,专为训练和研究设计。它通过工具提取和分类过滤,提升了原始数据的质量,为自然语言处理任务提供了可靠的筛选子集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作