ccnews-filtered

Hugging Face2025-11-01 更新2025-11-02 收录

下载链接：

https://huggingface.co/datasets/greenfish/ccnews-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从2016年到2021年的网页数据，每个网页数据都包含了请求的URL、纯文本内容、发布日期、标题、标签、类别、作者、网站名称、图片URL、语言、语言得分、响应的URL、发布者、Warc路径和爬取日期等信息。数据集被分为多个配置，每个配置对应一年的数据，并且每个配置又被细分为多个子集。每个配置的数据大小和下载大小也有详细说明。

创建时间：

2025-10-31

原始信息汇总

CCNews Filtered 数据集概述

数据集基本信息

数据集名称: CCNews Filtered
数据来源: Common Crawl 新闻数据
数据时间范围: 2016-2021年
数据格式: 结构化文本数据

数据配置与规模

配置年份分布

2016年配置: 3个数据分片，共17,737个样本
2017年配置: 30个数据分片，共1,498,769个样本
2018年配置: 43个数据分片，共706,248个样本
2019年配置: 55个数据分片，共1,275,143个样本
2020年配置: 76个数据分片，共1,028,482个样本
2021年配置: 21个数据分片，共246,953个样本

总体规模统计

总下载大小: 9.78 GB
总数据集大小: 16.34 GB
总样本数量: 约4.77百万条

数据特征结构

核心特征字段

内容特征:
- plain_text: 新闻正文文本
- title: 新闻标题
- tags: 新闻标签
- categories: 新闻分类
元数据特征:
- requested_url: 请求URL
- responded_url: 响应URL
- published_date: 发布日期
- crawl_date: 爬取日期
来源信息:
- sitename: 网站名称
- publisher: 发布者
- author: 作者
多媒体信息:
- image_url: 图片URL
语言信息:
- language: 语言类型
- language_score: 语言置信度得分
技术信息:
- warc_path: WARC文件路径

数据分片详情

2016年配置

分片数量: 3个
样本总数: 17,737条
数据大小: 56.95 MB

2017年配置

分片数量: 30个
样本总数: 1,498,769条
数据大小: 6.66 GB

2018年配置

分片数量: 43个
样本总数: 706,248条
数据大小: 2.27 GB

2019年配置

分片数量: 55个
样本总数: 1,275,143条
数据大小: 3.86 GB

2020年配置

分片数量: 76个
样本总数: 1,028,482条
数据大小: 3.43 GB

2021年配置

分片数量: 21个
样本总数: 246,953条
数据大小: 部分数据（记录不完整）

搜集汇总

数据集介绍

构建方式

在新闻语料库构建领域，ccnews-filtered数据集通过系统化网络爬取与多维度过滤机制形成。该数据集基于Common Crawl公开网页存档，采用WARC格式原始数据提取技术，通过语言识别算法筛选英语内容，并结合发布时间、站点来源等元数据构建年度子集。其构建过程涵盖网页去重、文本净化及结构化处理，确保语料具有时序连续性与内容多样性。

特点

该数据集呈现多维度新闻文本特征，涵盖2016至2021年间持续更新的网络新闻内容。每条记录包含标题、正文、作者、发布者等15个结构化字段，特别配备语言置信度评分与媒体来源标识。数据按年度分卷存储，各年度子集通过分片机制实现分布式管理，既保持原始网页的元数据完整性，又通过标准化字段提升机器学习任务的适配性。

使用方法

研究人员可通过HuggingFace数据集库直接加载特定年度配置，利用标准数据迭代接口访问文本与元数据。该数据集适用于大规模语言模型预训练、新闻主题分类、时序舆情分析等自然语言处理任务。使用时可结合published_date字段进行时间序列分析，或通过language_score实现语料质量过滤，其分片结构支持分布式计算框架下的并行处理。

背景与挑战

背景概述

在自然语言处理领域，大规模文本数据集的构建对于推动语言模型的发展具有关键意义。ccnews-filtered数据集由Common Crawl组织于2016年至2021年间持续构建，通过系统化采集网络新闻内容，涵盖多语言文本、元数据及媒体链接等丰富特征。该数据集致力于解决新闻文本理解、跨语言分析及信息抽取等核心问题，为机器翻译、情感分析和事件检测等任务提供了重要基础资源，显著提升了语言模型在真实场景中的泛化能力。

当前挑战

新闻文本处理面临领域特有的复杂性，包括多语言混杂、时效性差异及文体多样性等挑战。在构建过程中，数据清洗需应对非结构化文本的噪声过滤、语言识别准确度提升，以及版权合规性等难题。同时，大规模网络爬取涉及存储效率优化和元数据一致性维护，如何平衡数据覆盖广度与质量保证成为持续迭代的核心议题。

常用场景

实际应用

基于该数据集训练的模型已广泛应用于智能新闻推荐系统，通过语义理解实现个性化内容分发。媒体机构利用其构建自动摘要工具，提升新闻生产效率。在舆情监测场景中，模型能快速识别热点事件演化趋势，为公共决策提供数据支撑。金融领域则借助其训练的风险事件检测模型，辅助市场波动预警。

衍生相关工作

以该数据集为基石，衍生出多项里程碑式研究。RoBERTa等预训练模型通过其验证了动态掩码技术的有效性，T5框架则探索了文本到文本的统一范式。在多语言方向，XLM-R模型利用其实现了跨语言迁移突破。近期研究更聚焦于时序知识融合，探索如何使模型持续适应新闻语义的动态变化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集