ccnews-filtered
收藏Hugging Face2025-11-01 更新2025-11-02 收录
下载链接:
https://huggingface.co/datasets/greenfish/ccnews-filtered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从2016年到2021年的网页数据,每个网页数据都包含了请求的URL、纯文本内容、发布日期、标题、标签、类别、作者、网站名称、图片URL、语言、语言得分、响应的URL、发布者、Warc路径和爬取日期等信息。数据集被分为多个配置,每个配置对应一年的数据,并且每个配置又被细分为多个子集。每个配置的数据大小和下载大小也有详细说明。
创建时间:
2025-10-31
原始信息汇总
CCNews Filtered 数据集概述
数据集基本信息
- 数据集名称: CCNews Filtered
- 数据来源: Common Crawl 新闻数据
- 数据时间范围: 2016-2021年
- 数据格式: 结构化文本数据
数据配置与规模
配置年份分布
- 2016年配置: 3个数据分片,共17,737个样本
- 2017年配置: 30个数据分片,共1,498,769个样本
- 2018年配置: 43个数据分片,共706,248个样本
- 2019年配置: 55个数据分片,共1,275,143个样本
- 2020年配置: 76个数据分片,共1,028,482个样本
- 2021年配置: 21个数据分片,共246,953个样本
总体规模统计
- 总下载大小: 9.78 GB
- 总数据集大小: 16.34 GB
- 总样本数量: 约4.77百万条
数据特征结构
核心特征字段
-
内容特征:
plain_text: 新闻正文文本title: 新闻标题tags: 新闻标签categories: 新闻分类
-
元数据特征:
requested_url: 请求URLresponded_url: 响应URLpublished_date: 发布日期crawl_date: 爬取日期
-
来源信息:
sitename: 网站名称publisher: 发布者author: 作者
-
多媒体信息:
image_url: 图片URL
-
语言信息:
language: 语言类型language_score: 语言置信度得分
-
技术信息:
warc_path: WARC文件路径
数据分片详情
2016年配置
- 分片数量: 3个
- 样本总数: 17,737条
- 数据大小: 56.95 MB
2017年配置
- 分片数量: 30个
- 样本总数: 1,498,769条
- 数据大小: 6.66 GB
2018年配置
- 分片数量: 43个
- 样本总数: 706,248条
- 数据大小: 2.27 GB
2019年配置
- 分片数量: 55个
- 样本总数: 1,275,143条
- 数据大小: 3.86 GB
2020年配置
- 分片数量: 76个
- 样本总数: 1,028,482条
- 数据大小: 3.43 GB
2021年配置
- 分片数量: 21个
- 样本总数: 246,953条
- 数据大小: 部分数据(记录不完整)
搜集汇总
数据集介绍

构建方式
在新闻语料库构建领域,ccnews-filtered数据集通过系统化网络爬取与多维度过滤机制形成。该数据集基于Common Crawl公开网页存档,采用WARC格式原始数据提取技术,通过语言识别算法筛选英语内容,并结合发布时间、站点来源等元数据构建年度子集。其构建过程涵盖网页去重、文本净化及结构化处理,确保语料具有时序连续性与内容多样性。
特点
该数据集呈现多维度新闻文本特征,涵盖2016至2021年间持续更新的网络新闻内容。每条记录包含标题、正文、作者、发布者等15个结构化字段,特别配备语言置信度评分与媒体来源标识。数据按年度分卷存储,各年度子集通过分片机制实现分布式管理,既保持原始网页的元数据完整性,又通过标准化字段提升机器学习任务的适配性。
使用方法
研究人员可通过HuggingFace数据集库直接加载特定年度配置,利用标准数据迭代接口访问文本与元数据。该数据集适用于大规模语言模型预训练、新闻主题分类、时序舆情分析等自然语言处理任务。使用时可结合published_date字段进行时间序列分析,或通过language_score实现语料质量过滤,其分片结构支持分布式计算框架下的并行处理。
背景与挑战
背景概述
在自然语言处理领域,大规模文本数据集的构建对于推动语言模型的发展具有关键意义。ccnews-filtered数据集由Common Crawl组织于2016年至2021年间持续构建,通过系统化采集网络新闻内容,涵盖多语言文本、元数据及媒体链接等丰富特征。该数据集致力于解决新闻文本理解、跨语言分析及信息抽取等核心问题,为机器翻译、情感分析和事件检测等任务提供了重要基础资源,显著提升了语言模型在真实场景中的泛化能力。
当前挑战
新闻文本处理面临领域特有的复杂性,包括多语言混杂、时效性差异及文体多样性等挑战。在构建过程中,数据清洗需应对非结构化文本的噪声过滤、语言识别准确度提升,以及版权合规性等难题。同时,大规模网络爬取涉及存储效率优化和元数据一致性维护,如何平衡数据覆盖广度与质量保证成为持续迭代的核心议题。
常用场景
实际应用
基于该数据集训练的模型已广泛应用于智能新闻推荐系统,通过语义理解实现个性化内容分发。媒体机构利用其构建自动摘要工具,提升新闻生产效率。在舆情监测场景中,模型能快速识别热点事件演化趋势,为公共决策提供数据支撑。金融领域则借助其训练的风险事件检测模型,辅助市场波动预警。
衍生相关工作
以该数据集为基石,衍生出多项里程碑式研究。RoBERTa等预训练模型通过其验证了动态掩码技术的有效性,T5框架则探索了文本到文本的统一范式。在多语言方向,XLM-R模型利用其实现了跨语言迁移突破。近期研究更聚焦于时序知识融合,探索如何使模型持续适应新闻语义的动态变化。
以上内容由遇见数据集搜集并总结生成



