five

CC-News (CommonCrawl News dataset)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/CC-News
下载链接
链接失效反馈
官方服务:
资源简介:
我们很高兴地宣布发布一个新数据集,其中包含来自世界各地新闻网站的新闻文章。 数据可在crawl-data/CC-NEWS/的commoncrawl存储桶中的AWS S3上获得。WARC文件每天发布,可通过文件名前缀 (包括年份和月份) 进行标识。我们提供已发布的WARC文件列表,2016年到目前为止按年份和月份组织。
提供机构:
OpenDataLab
创建时间:
2022-11-02
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作