five

CC-News Dataset

收藏
paperswithcode.com2025-03-22 收录
下载链接:
https://paperswithcode.com/dataset/cc-news
下载链接
链接失效反馈
官方服务:
资源简介:
CommonCrawl News is a dataset containing news articles from news sites all over the world. The dataset is available in form of Web ARChive (WARC) files that are released on a daily basis.

CommonCrawl News 数据集汇聚了全球各新闻网站的新闻文章。该数据集以每日发布的 Web ARChive (WARC) 文件形式提供。
提供机构:
Papers with Code
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CC-News数据集是一个包含708,241篇英文新闻文章的集合,发布时间跨度为2017年1月至2019年12月,主要用于语言模型训练。数据集提供了每篇文章的标题、文本、发布日期、描述、来源域名、URL和图片URL等详细信息。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作