CC-News (CommonCrawl News dataset)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/CC-News
下载链接
链接失效反馈官方服务:
资源简介:
我们很高兴地宣布发布一个新数据集,其中包含来自世界各地新闻网站的新闻文章。
数据可在crawl-data/CC-NEWS/的commoncrawl存储桶中的AWS S3上获得。WARC文件每天发布,可通过文件名前缀 (包括年份和月份) 进行标识。我们提供已发布的WARC文件列表,2016年到目前为止按年份和月份组织。
提供机构:
OpenDataLab
创建时间:
2022-11-02



