CC-News Dataset
收藏paperswithcode.com2025-03-22 收录
下载链接:
https://paperswithcode.com/dataset/cc-news
下载链接
链接失效反馈官方服务:
资源简介:
CommonCrawl News is a dataset containing news articles from news sites all over the world. The dataset is available in form of Web ARChive (WARC) files that are released on a daily basis.
CommonCrawl News 数据集汇聚了全球各新闻网站的新闻文章。该数据集以每日发布的 Web ARChive (WARC) 文件形式提供。
提供机构:
Papers with Code
搜集汇总
数据集介绍

背景与挑战
背景概述
CC-News数据集是一个包含708,241篇英文新闻文章的集合,发布时间跨度为2017年1月至2019年12月,主要用于语言模型训练。数据集提供了每篇文章的标题、文本、发布日期、描述、来源域名、URL和图片URL等详细信息。
以上内容由遇见数据集搜集并总结生成



