vblagoje/cc_news

Name: vblagoje/cc_news
Creator: vblagoje
Published: 2024-01-04 06:45:02
License: 暂无描述

Hugging Face2024-01-04 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/vblagoje/cc_news

下载链接

链接失效反馈

官方服务：

资源简介：

CC-News数据集包含来自全球新闻网站的英文新闻文章，文章发布时间在2017年1月至2019年12月之间。数据集主要用于语言模型训练，包含文章的标题、文本、描述、发布日期、来源域名、图片URL和文章URL等信息。数据集的创建使用了news-please工具，并对文章进行了语言检测以确保其为英文。

The CC-News Dataset contains English-language news articles sourced from global news websites, with publication dates ranging from January 2017 to December 2019. It is primarily designed for language model training, and includes information such as article titles, article texts, descriptions, publication dates, source domains, image URLs, and article URLs. The dataset was developed using the news-please tool, and language detection was performed on the articles to confirm that they are in English.

提供机构：

vblagoje

原始信息汇总

数据集概述

名称: CC-News

描述: CC-News数据集包含来自全球新闻网站的708,241篇英语新闻文章，这些文章发布于2017年1月至2019年12月之间。该数据集主要用于语言模型训练，特别是文本生成和掩码语言建模任务。

语言: 英语

许可: 未知

多语言性: 单语

大小: 100K<n<1M

源数据: 原始数据

任务类别:

文本生成
掩码语言建模

数据结构:

数据实例: 每个实例包含文章本身及其相关字段。
数据字段:
- date: 发布日期
- description: 文章描述或摘要
- domain: 文章来源域名
- image_url: 文章图片URL
- text: 文章文本
- title: 文章标题
- url: 文章原始URL
数据分割: 仅包含训练集，需通过train分割加载数据。

数据创建:

源数据: 数据由Sebastian Nagel提出、创建和维护，使用news-please进行准备，通过Spacy langdetect pipeline筛选英语文章。
个人和敏感信息: 数据可能包含当代公众人物或新闻中出现的个人。

使用考虑:

社会影响: 旨在帮助语言模型研究人员开发更好的语言模型。
偏见讨论: 信息不足
其他已知限制: 信息不足

贡献者: @vblagoje

搜集汇总

数据集介绍

构建方式

在新闻文本挖掘领域，CC-News数据集通过系统化采集与精炼流程构建而成。其基础源自Common Crawl项目公开的全球新闻网页原始数据，并借助news-please这一集成化网络爬虫与信息提取工具进行自动化内容抽取。为确保语料语言纯度，构建过程额外采用Spacy语言检测流程对文本进行筛选，仅保留英语概率高于80%的新闻条目，最终形成涵盖2017年至2019年间70余万篇英文新闻的结构化集合。

使用方法

研究者可通过HuggingFace数据集库直接加载该数据集，指定训练分割即可获取全部新闻条目。该语料库主要服务于语言建模与掩码语言建模任务，能够为预训练模型提供大规模真实文本序列。在使用过程中，建议结合具体研究目标对文本字段进行选择性提取或组合，例如利用标题-正文对训练生成模型，或基于完整新闻文本构建语言理解任务。需注意数据中可能存在字段缺失或图像链接未经验证的情况，建议在使用前进行适应性清洗与验证。

背景与挑战

背景概述

在自然语言处理领域，大规模文本语料库的构建对于推动语言模型的发展具有关键作用。CC-News数据集由Sebastian Nagel于2016年提出并创建，依托Common Crawl项目，通过news-please工具从全球新闻网站中爬取并提取结构化信息。该数据集收录了2017年1月至2019年12月期间发布的70余万篇英文新闻文章，涵盖了标题、正文、发布日期、来源域名及图像链接等多维字段，旨在为语言建模与掩码语言建模等任务提供高质量的预训练资源。其广泛的数据来源与时间跨度，显著增强了模型对当代语言现象与社会语境的理解能力，成为BERT、GPT等前沿模型训练中的重要基础语料之一。

当前挑战

CC-News数据集所针对的核心领域问题是语言模型的训练与优化，其挑战在于如何从异构、动态的新闻源中构建具有代表性、无偏且高质量的文本集合。具体而言，数据构建过程中面临多重困难：新闻内容的语言标签可靠性不足，需借助外部工具进行二次验证以严格筛选英文文本；数据字段完整性存在差异，部分文章缺失描述等关键信息，影响数据的一致性。此外，新闻数据固有的时效性与地域性可能导致模型训练中的分布偏差，而未经严格审核的图像链接与敏感人物信息，亦可能引入隐私与伦理风险，这些因素共同制约了数据集的普适性与安全性。

常用场景

经典使用场景

在自然语言处理领域，大规模语料库的构建对于语言模型的预训练至关重要。CC-News数据集作为源自全球新闻网站的英文文章集合，其最经典的使用场景在于为自监督学习提供丰富的文本资源。研究者通常利用该数据集进行掩码语言建模或因果语言建模任务，通过预测被遮蔽的词汇或生成连贯的文本序列，从而训练出能够深刻理解语言结构和语义信息的深度神经网络模型。这类预训练模型在后续的微调过程中展现出强大的泛化能力，为下游任务奠定了坚实基础。

解决学术问题

CC-News数据集主要解决了自然语言处理中高质量、大规模训练数据稀缺的学术研究问题。在语言模型发展的历程中，数据的规模与质量直接制约着模型性能的上限。该数据集通过聚合2017年至2019年间超过70万篇新闻文章，提供了一个时序连续、领域广泛且语言规范的文本源，有效支持了模型对当代语言用法、时事话题及多样写作风格的学习。其意义在于推动了基于Transformer架构的模型（如BERT、GPT系列）在英文语境下的性能突破，促进了预训练-微调范式的普及，并对模型稳健性、偏见评估等研究方向产生了深远影响。

实际应用

在实际应用层面，基于CC-News训练的语言模型已广泛应用于智能内容生成、信息检索与摘要、情感分析以及机器翻译等场景。例如，新闻机构可利用这些模型自动生成报道初稿或提炼长篇新闻的要点，提升内容生产效率；搜索引擎则能借助模型更精准地理解用户查询意图，改善搜索结果的相关性。此外，在舆情监控系统中，此类模型能够快速分析海量新闻文本中的观点倾向，为商业决策或公共政策分析提供数据支持。这些应用显著提升了信息处理自动化水平，降低了人力成本。

数据集最近研究