infini-news-corpus

Hugging Face2026-01-30 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/ruggsea/infini-news-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

INFINI-NEWS语料库是一个从Common Crawl的CC-NEWS存档（2021-2025年）中提取的大规模多语言新闻数据集，专为时间序列NLP研究、新闻理解和大型语言模型训练而设计。该数据集包含826,718,662篇新闻文章，来自全球57,928个独特的新闻域名，涵盖136种语言。数据按年份组织，共35,051个JSONL文件，总字数达6450亿，总字符数9.4万亿。主要语言包括英语（35.2%）、西班牙语（9.5%）、俄语（7.1%）等。每篇文章包含URL、发布日期、下载日期、来源域名、标题、描述、正文、语言代码、国家顶级域名、作者列表和图片URL等字段。数据集适用于文本生成、文本分类和标记分类等NLP任务，仅供研究使用，需遵守CC-BY 4.0许可和原始出版商的版权规定。

The INFINI-NEWS Corpus is a large-scale multilingual news dataset extracted from the CC-NEWS archive (2021–2025) of Common Crawl, designed specifically for time-series NLP research, news understanding, and large language model (LLM) training. This dataset contains 826,718,662 news articles sourced from 57,928 unique news domains worldwide, covering 136 languages. Organized by year, it consists of 35,051 JSONL files, with a total word count of 645 billion and a total character count of 9.4 trillion. Its dominant languages include English (35.2%), Spanish (9.5%), Russian (7.1%), among others. Each article includes fields such as URL, publication date, download date, source domain, title, description, full text, language code, country code top-level domain (ccTLD), author list, and image URL. This dataset is applicable to NLP tasks including text generation, text classification and token classification, and is for research use only. Users must comply with the CC-BY 4.0 license and copyright regulations of the original publishers.

创建时间：

2026-01-29

搜集汇总

数据集介绍

构建方式

在新闻媒体与自然语言处理研究领域，大规模多语言语料库的构建对于推动计算新闻学与跨语言模型的发展至关重要。INFINI-NEWS Corpus 基于 Common Crawl News (CC-NEWS) 档案，系统性地采集了2021年至2025年间的新闻文章。通过 trafilatura 库进行文本提取，并经过严格的清洗流程，包括去除HTML标签、去重与质量过滤，最终以按年份分区的形式存储为经过zstd压缩的Parquet文件，确保了数据的高效访问与完整性。

特点

该数据集以其多语言覆盖与时间跨度而著称，涵盖英语、德语、法语、西班牙语、意大利语、葡萄牙语、荷兰语、波兰语等多种语言，总量达1.65 TB，包含超过35000个源文件。其结构化模式提供了丰富的元数据字段，如发布日期、语言代码、国家顶级域名及作者信息等。尤为突出的是，数据集附带了基于SDSL构建的FM-index全文本索引，支持高效的子字符串搜索与n-gram频率统计，为大规模文本分析提供了强大的检索能力。

使用方法

研究人员可通过 Hugging Face 的 `datasets` 库便捷加载该数据集，支持按年份或整体加载。数据集遵循FAIR数据原则，采用门控访问机制，仅限非商业研究用途，用户需提交申请以获得访问权限。加载后，可利用其全文本索引进行高效的语料搜索与分析，适用于文本生成、分类及计算新闻学等任务，同时需严格遵守使用条款，尊重原始内容创作者的权益。

背景与挑战

背景概述

在自然语言处理与计算新闻学领域，大规模、高质量的多语言新闻语料库对于推动模型训练与跨文化媒体分析具有关键价值。INFINI-NEWS语料库由研究团队基于Common Crawl News（CC-NEWS）档案构建，涵盖2021年至2025年的新闻文章，数据规模达1.65 TB，涉及英语、德语、法语、西班牙语、意大利语、葡萄牙语、荷兰语、波兰语等多种语言。该语料库严格遵循FAIR数据原则，旨在为文本生成、文本分类等任务提供结构化、可追溯的研究资源，其核心研究问题聚焦于如何从海量网络新闻中提取并组织具有时序性与地域特征的文本数据，以支持对全球媒体动态与语言演变的深入探索。

当前挑战

该数据集致力于应对多语言新闻文本处理中的核心挑战，包括跨语言语义理解的一致性、新闻内容的时效性建模以及媒体偏见检测等复杂问题。在构建过程中，研究人员面临诸多技术障碍：从原始HTML中精准提取并清洗文章正文，需克服网页布局多样性带来的噪声干扰；实现跨年度、多语言数据的去重与质量过滤，要求设计高效的并行处理流程；此外，为确保数据可追溯性与合规使用，团队必须建立严格的数据来源标注机制与访问控制策略，这些步骤均增加了语料库构建的复杂度与资源消耗。

常用场景

经典使用场景

在自然语言处理领域，大规模多语言新闻语料库为模型训练与评估提供了丰富资源。INFINI-NEWS Corpus凭借其涵盖2021至2025年间的跨语言新闻文章，常被用于文本生成任务的预训练与微调，例如训练多语言大型语言模型以生成连贯、信息丰富的新闻风格文本。研究人员利用其时序性特征，探索模型在动态语言环境下的适应能力，推动生成式人工智能在新闻领域的应用边界。

衍生相关工作

围绕该数据集衍生的经典工作包括基于FM索引的高效全文检索系统、跨语言新闻分类模型以及时序感知的新闻趋势预测框架。这些研究不仅深化了对多语言新闻语义结构的理解，还推动了信息检索与自然语言处理技术的融合，例如利用索引结构实现快速n-gram统计，为大规模语料库的实时分析提供了可扩展的解决方案。

数据集最近研究