CC-News
收藏arXiv2025-09-30 收录
下载链接:
https://commoncrawl.org/2016/10/news-dataset-available/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为CC-News,是从Common Crawl数据集中收集的新闻文章集合。其任务是对语言模型进行预训练。
This dataset, named CC-News, is a collection of news articles collected from the Common Crawl dataset. Its purpose is to pre-train language models.
搜集汇总
背景与挑战
背景概述
CC-News数据集是从Common Crawl收集的新闻文章集合,专门用于语言模型的预训练任务,具有大规模文本数据的特点,适用于自然语言处理研究和开发。
以上内容由遇见数据集搜集并总结生成



