infini-news-index

Hugging Face2026-02-09 更新2026-02-10 收录

下载链接：

https://huggingface.co/datasets/ruggsea/infini-news-index

下载链接

链接失效反馈

官方服务：

资源简介：

INFINI-NEWS FM-Index 数据集是一个基于 Burrows-Wheeler 变换的预构建 FM 索引数据集，用于支持对 2021 年至 2025 年五年间新闻文章的快速全文搜索和 n-gram 查询。该数据集的主要功能包括子字符串搜索、n-gram 计数、文档检索和元数据查询。数据集按年份和月份分片存储，每个月的索引单独存储以提高内存效率。数据集总规模超过 1TB，包含数千万篇文章。技术实现上采用了 FM-index 和 SDSL-lite 压缩算法，查询复杂度为 O(m)，其中 m 为模式长度。该数据集适用于文本生成、特征提取等自然语言处理任务，尤其适合需要大规模新闻文本分析的研究和应用。数据集的使用需要通过 infini-gram-mini 引擎进行查询，支持内存映射以处理大规模索引。数据集遵循 CC-BY-4.0 许可。

The INFINI-NEWS FM-Index Dataset is a pre-built FM-index dataset based on the Burrows-Wheeler Transform, designed to support fast full-text search and n-gram queries over news articles spanning the five-year period from 2021 to 2025. Its core functions include substring search, n-gram counting, document retrieval, and metadata querying. The dataset is sharded by year and month, with each monthly index stored individually to enhance memory efficiency. The total size of the dataset exceeds 1 TB, containing tens of millions of news articles. Technically, it adopts the FM-index and SDSL-lite compression algorithms, with a query complexity of O(m), where m denotes the length of the query pattern. This dataset is suitable for natural language processing tasks such as text generation and feature extraction, and is particularly well-suited for research and applications requiring large-scale news text analysis. Queries to the dataset must be executed via the infini-gram-mini engine, which supports memory mapping to handle large-scale indexes. The dataset is licensed under CC-BY-4.0.

创建时间：

2026-01-28

原始信息汇总

INFINI-NEWS FM-Index 数据集概述

基本信息

数据集名称: INFINI-NEWS FM-Index
发布者: Ruggero Lazzaroni
发布日期: 2025年
许可证: CC-BY-4.0
任务类别: 文本生成、特征提取
语言: 英语
标签: 新闻、fm-index、infini-gram、full-text-search、n-gram
规模: 大于1T

数据集描述

该数据集包含为INFINI-NEWS语料库预构建的FM-index文件，支持对5年新闻文章（2021-2025年）进行快速全文搜索和n-gram查询。

核心功能

子字符串搜索: 在语料库中查找任何文本模式
N-gram计数: 统计任何n-gram的出现次数
文档检索: 获取匹配项周围的完整上下文
元数据查询: 搜索文章元数据（标题、URL、日期）

数据结构

数据集按年份和月份分片组织，每个月份目录包含以下文件：

data.fm9: 文章文本的FM-index
meta.fm9: 元数据的FM-index
data_offset: 文档边界（文本）
meta_offset: 文档边界（元数据）

索引统计

年份	月份数	索引大小	文章数量
2021	12	~300 GB	~48M
2022	12	~350 GB	~64M
2023	12	~400 GB	~60M
2024	12	~380 GB	~45M
2025	12	~350 GB	~37M

技术细节

索引类型: FM-index（Ferragina-Manzini索引）
实现: infini-gram-mini
压缩: SDSL-lite with RRR vectors
查询复杂度: O(m)（模式长度为m）
空间占用: 约为原始文本大小的30-40%

使用方式

安装依赖

bash pip install infini-gram-mini

下载索引

使用huggingface_hub.snapshot_download下载全部或特定年份的索引文件。

查询索引

使用InfiniGramMiniEngine初始化引擎，支持以下操作：

engine.count(): 统计术语出现次数
engine.find(): 查找包含短语的文档
engine.get_doc_by_rank(): 获取匹配项周围的文档上下文

引用

bibtex @dataset{infini_news_2025, author = {Lazzaroni, Ruggero}, title = {INFINI-NEWS: Large-Scale News Corpus with FM-Index}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/ruggsea/infini-news-index} }

搜集汇总

数据集介绍

构建方式

在新闻文本挖掘领域，高效检索大规模语料库的需求日益增长。INFINI-NEWS FM-Index 数据集基于 INFINI-NEWS 原始语料库构建，该语料库收录了2021年至2025年间的海量新闻文章。构建过程采用了先进的 FM-index 索引技术，该技术以 Burrows-Wheeler 变换为核心，将原始文本转化为压缩且可快速查询的数据结构。索引按年份和月份进行分片处理，每月数据独立存储为“分片”，既优化了内存使用效率，又支持跨分片的无缝查询。整个索引的构建依托于 infini-gram-mini 引擎实现，确保了索引的紧凑性和查询的高性能。

特点

该数据集的核心特点在于其强大的检索能力与灵活的结构设计。FM-index 结构使得用户能够执行高效的子字符串搜索、n-gram 频率统计以及文档上下文检索，查询复杂度仅与模式长度成线性关系。数据集覆盖了五年间的新闻动态，内容规模超过1T tokens，并按时间维度精细组织，允许用户针对特定时间段进行定向查询。索引文件采用了 SDSL-lite 库中的 RRR 向量进行压缩，存储空间仅为原始文本大小的30%至40%，在保证查询速度的同时显著降低了存储开销。此外，数据集还包含了文章元数据索引，支持对标题、URL和日期等属性的联合检索。

使用方法

使用该数据集需要首先安装 infini-gram-mini 引擎，并通过 Hugging Face Hub 下载索引文件。用户可以根据研究需求选择下载完整数据集或特定年份的分片。初始化引擎后，即可通过简洁的 Python API 执行多种查询操作，例如统计特定短语的出现频次、查找包含关键字的文档并获取其上下文内容。引擎支持内存映射模式，能够有效处理超大规模索引而无需全部载入内存。对于关注时序分析的研究，用户可以灵活加载指定时间范围的分片，从而快速聚焦于特定时期的新闻趋势分析。未来，该项目还计划提供公共 API 接口，以便通过 Web 或 REST 服务进行远程查询。

背景与挑战

背景概述

随着大规模语言模型和语料库分析需求的日益增长，高效检索海量文本数据成为自然语言处理领域的关键挑战。在此背景下，由研究人员Ruggero Lazzaroni于2025年构建并发布的INFINI-NEWS FM-Index数据集应运而生。该数据集基于Burrows-Wheeler变换构建了FM索引结构，专门针对2021年至2025年间超过数亿篇新闻文章，旨在支持快速全文搜索与n-gram查询。其核心研究问题聚焦于如何实现对超大规模时序新闻语料的高效、可扩展检索，为语言模型训练、社会趋势分析和信息检索研究提供了重要的基础设施。

当前挑战

该数据集致力于解决大规模新闻语料检索中的核心挑战，即如何在TB级文本数据上实现低延迟的任意模式匹配与频次统计。构建过程中的主要挑战包括海量异构新闻数据的清洗与标准化、跨年度时序索引的分布式存储优化，以及内存映射与压缩算法的平衡，以确保索引在保持查询效率的同时控制存储开销。此外，面对持续增长的新闻流数据，索引的增量更新与一致性维护也构成了显著的技术难题。

常用场景

经典使用场景

在新闻文本挖掘与信息检索领域，INFINI-NEWS索引数据集凭借其基于FM-index的高效结构，为大规模新闻语料分析提供了经典应用场景。研究者能够对2021至2025年间数千万篇新闻文章执行全文检索与n-gram统计，快速定位特定短语或主题的出现频率，从而追踪公共话语的演变趋势。这种能力使得历时性语言模式分析和跨文档内容比对成为可能，为计算社会科学和数字人文研究提供了坚实的数据基础。

解决学术问题

该数据集有效应对了海量文本数据处理中的关键学术挑战，特别是解决了传统方法在超大规模语料上查询效率低下的瓶颈。通过预构建的FM-index，它支持O(m)时间复杂度的子串搜索，使得研究者能够高效地进行词频统计、语境检索和元数据查询。这不仅加速了语言模型训练中的数据预处理，也为社会舆情分析、事件演变追踪等研究提供了可靠的工具，推动了基于大数据的文本挖掘方法的发展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在扩展其索引能力与应用边界上。例如，基于infini-gram-mini引擎的优化实现了更高效的多分片并行查询；部分研究将其与深度学习模型结合，用于训练新闻专属的语言表示。同时，相关项目正探索构建公开API接口，以降低数据访问门槛。这些进展不仅丰富了大规模文本索引的技术生态，也为跨学科研究如计算传播学、历史事件建模等提供了新的方法论启示。

以上内容由遇见数据集搜集并总结生成