five

ccnews-filtered

收藏
Hugging Face2025-11-01 更新2025-11-02 收录
下载链接:
https://huggingface.co/datasets/greenfish/ccnews-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了从2016年到2021年的网页数据,每个网页数据都包含了请求的URL、纯文本内容、发布日期、标题、标签、类别、作者、网站名称、图片URL、语言、语言得分、响应的URL、发布者、Warc路径和爬取日期等信息。数据集被分为多个配置,每个配置对应一年的数据,并且每个配置又被细分为多个子集。每个配置的数据大小和下载大小也有详细说明。
创建时间:
2025-10-31
原始信息汇总

CCNews Filtered 数据集概述

数据集基本信息

  • 数据集名称: CCNews Filtered
  • 数据来源: Common Crawl 新闻数据
  • 数据时间范围: 2016-2021年
  • 数据格式: 结构化文本数据

数据配置与规模

配置年份分布

  • 2016年配置: 3个数据分片,共17,737个样本
  • 2017年配置: 30个数据分片,共1,498,769个样本
  • 2018年配置: 43个数据分片,共706,248个样本
  • 2019年配置: 55个数据分片,共1,275,143个样本
  • 2020年配置: 76个数据分片,共1,028,482个样本
  • 2021年配置: 21个数据分片,共246,953个样本

总体规模统计

  • 总下载大小: 9.78 GB
  • 总数据集大小: 16.34 GB
  • 总样本数量: 约4.77百万条

数据特征结构

核心特征字段

  • 内容特征:

    • plain_text: 新闻正文文本
    • title: 新闻标题
    • tags: 新闻标签
    • categories: 新闻分类
  • 元数据特征:

    • requested_url: 请求URL
    • responded_url: 响应URL
    • published_date: 发布日期
    • crawl_date: 爬取日期
  • 来源信息:

    • sitename: 网站名称
    • publisher: 发布者
    • author: 作者
  • 多媒体信息:

    • image_url: 图片URL
  • 语言信息:

    • language: 语言类型
    • language_score: 语言置信度得分
  • 技术信息:

    • warc_path: WARC文件路径

数据分片详情

2016年配置

  • 分片数量: 3个
  • 样本总数: 17,737条
  • 数据大小: 56.95 MB

2017年配置

  • 分片数量: 30个
  • 样本总数: 1,498,769条
  • 数据大小: 6.66 GB

2018年配置

  • 分片数量: 43个
  • 样本总数: 706,248条
  • 数据大小: 2.27 GB

2019年配置

  • 分片数量: 55个
  • 样本总数: 1,275,143条
  • 数据大小: 3.86 GB

2020年配置

  • 分片数量: 76个
  • 样本总数: 1,028,482条
  • 数据大小: 3.43 GB

2021年配置

  • 分片数量: 21个
  • 样本总数: 246,953条
  • 数据大小: 部分数据(记录不完整)
搜集汇总
数据集介绍
main_image_url
构建方式
在新闻语料库构建领域,ccnews-filtered数据集通过系统化网络爬取与多维度过滤机制形成。该数据集基于Common Crawl公开网页存档,采用WARC格式原始数据提取技术,通过语言识别算法筛选英语内容,并结合发布时间、站点来源等元数据构建年度子集。其构建过程涵盖网页去重、文本净化及结构化处理,确保语料具有时序连续性与内容多样性。
特点
该数据集呈现多维度新闻文本特征,涵盖2016至2021年间持续更新的网络新闻内容。每条记录包含标题、正文、作者、发布者等15个结构化字段,特别配备语言置信度评分与媒体来源标识。数据按年度分卷存储,各年度子集通过分片机制实现分布式管理,既保持原始网页的元数据完整性,又通过标准化字段提升机器学习任务的适配性。
使用方法
研究人员可通过HuggingFace数据集库直接加载特定年度配置,利用标准数据迭代接口访问文本与元数据。该数据集适用于大规模语言模型预训练、新闻主题分类、时序舆情分析等自然语言处理任务。使用时可结合published_date字段进行时间序列分析,或通过language_score实现语料质量过滤,其分片结构支持分布式计算框架下的并行处理。
背景与挑战
背景概述
在自然语言处理领域,大规模文本数据集的构建对于推动语言模型的发展具有关键意义。ccnews-filtered数据集由Common Crawl组织于2016年至2021年间持续构建,通过系统化采集网络新闻内容,涵盖多语言文本、元数据及媒体链接等丰富特征。该数据集致力于解决新闻文本理解、跨语言分析及信息抽取等核心问题,为机器翻译、情感分析和事件检测等任务提供了重要基础资源,显著提升了语言模型在真实场景中的泛化能力。
当前挑战
新闻文本处理面临领域特有的复杂性,包括多语言混杂、时效性差异及文体多样性等挑战。在构建过程中,数据清洗需应对非结构化文本的噪声过滤、语言识别准确度提升,以及版权合规性等难题。同时,大规模网络爬取涉及存储效率优化和元数据一致性维护,如何平衡数据覆盖广度与质量保证成为持续迭代的核心议题。
常用场景
实际应用
基于该数据集训练的模型已广泛应用于智能新闻推荐系统,通过语义理解实现个性化内容分发。媒体机构利用其构建自动摘要工具,提升新闻生产效率。在舆情监测场景中,模型能快速识别热点事件演化趋势,为公共决策提供数据支撑。金融领域则借助其训练的风险事件检测模型,辅助市场波动预警。
衍生相关工作
以该数据集为基石,衍生出多项里程碑式研究。RoBERTa等预训练模型通过其验证了动态掩码技术的有效性,T5框架则探索了文本到文本的统一范式。在多语言方向,XLM-R模型利用其实现了跨语言迁移突破。近期研究更聚焦于时序知识融合,探索如何使模型持续适应新闻语义的动态变化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作