finewiki-100M

Hugging Face2025-11-02 更新2025-11-03 收录

下载链接：

https://huggingface.co/datasets/codelion/finewiki-100M

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从FineWiki数据集中采样出来的子集，包含了大约1亿个token，适用于小规模的预训练实验、数据集组成研究、快速原型设计和测试以及低成本训练运行。

创建时间：

2025-11-01

原始信息汇总

FineWiki Sampled Dataset (100,000,000 tokens) 概述

数据集基本信息

语言：英语
许可证：Apache 2.0
标签：wikipedia、finewiki、sampled

数据来源与采样方法

原始数据集：HuggingFaceFW/finewiki（英语子集，训练分割）
采样方法：储层采样（无偏随机采样）
目标词元数量：100,000,000词元
分词器：GPT-2（50,257词汇表）

采样统计信息

采样文档数量：53,131
平均词元/文档：1882.2
随机种子：42

数据集结构

数据分割：训练集（53,131个样本）
特征字段：
- text：维基百科文章文本（主要内容）
- id：唯一标识符
- wikiname：维基百科来源名称
- page_id：维基百科页面ID
- title：文章标题
- url：来源维基百科URL
- date_modified：最后修改日期
- in_language：语言代码（此子集始终为en）
- wikidata_id：维基数据标识符
- bytes_html：HTML内容大小
- wikitext：原始维基文本标记
- version：文章版本号
- infoboxes：提取的信息框数据
- has_math：文章是否包含数学公式

使用场景

小规模语言模型预训练实验
数据集组成研究
快速原型设计和测试
低成本训练运行

引用要求

使用此数据集时，请引用原始FineWiki数据集并提及采样方法。

数据集卡片作者

CodeLion

数据集卡片联系方式

如有问题，请在数据集存储库中提交问题。

搜集汇总

数据集介绍

构建方式

在维基百科数据资源日益成为自然语言处理研究核心语料的背景下，finewiki-100M数据集通过科学严谨的抽样方法构建而成。该数据集基于HuggingFaceFW/finewiki原始英文训练集，采用蓄水池抽样技术实现无偏随机采样，确保每个文档具有均等的入选概率。抽样过程中使用GPT-2分词器进行词元计数，通过流式处理方式在无需下载完整数据集的情况下，精准控制最终语料规模达到一亿词元。这种构建方法既保持了原始数据分布特征，又显著提升了数据使用的便捷性。

特点

作为高质量维基百科语料的代表性样本，finewiki-100M数据集展现出多维度特征优势。其核心内容包含53,131个文档，平均每个文档涵盖1882.2个词元，完整保留了原始数据集的结构化字段。每个样本均包含文章正文、唯一标识符、页面元数据、维基文本标记等丰富属性，特别是信息框数据和数学公式标记的保留，为语义理解研究提供了多模态分析基础。这种精心设计的特征体系使得该数据集兼具规模适中与信息完整的双重特性。

使用方法

针对自然语言处理领域的实验需求，finewiki-100M数据集提供了标准化的使用流程。研究人员可通过HuggingFace数据集库直接加载，使用指定代码即可访问训练分割中的所有样本。每个样本的文本内容、标题、URL等关键字段均可通过字典键值直接获取，这种简洁的接口设计显著降低了数据预处理复杂度。该数据集特别适用于语言模型预训练、文本挖掘算法验证等场景，其适中的规模既保证了实验效率，又维持了足够的数据多样性。

背景与挑战

背景概述

随着大规模语言模型预训练需求的持续增长，高质量文本语料库的构建成为自然语言处理领域的核心任务。FineWiki-100M数据集作为HuggingFaceFW/finewiki英语子集的采样版本，由CodeLion团队基于Apache 2.0协议构建，采用储层抽样技术从原始维基百科语料中提取约1亿个GPT-2标准分词单位。该数据集通过保留原文的元数据结构与多维度特征，为语言模型的小规模预训练与语料分布研究提供了标准化实验基准。其严谨的抽样方法论确保了对原始知识分布的无偏还原，显著降低了研究者在计算资源受限场景下的实验门槛。

当前挑战

在构建过程中面临双重挑战：其一，原始维基百科语料存在结构化差异与质量不均问题，需通过多轮清洗流程确保文本一致性；其二，储层抽样算法需在流式处理环境下平衡内存效率与分布保真度，避免因文档长度差异导致的抽样偏差。针对领域应用层面，该数据集需解决知识密集型任务中时序信息缺失与多模态关联断裂的固有局限，同时应对超长文档分段带来的语义连贯性挑战。

常用场景

经典使用场景

在自然语言处理领域，finewiki-100M作为高质量英文维基百科文本的抽样集合，常被用于语言模型的预训练实验。其通过无偏随机抽样方法保留了原始数据的分布特性，为研究者提供了轻量级但代表性强的语料库。该数据集支持对模型架构、训练策略的快速验证，尤其适合资源受限环境下开展小规模原型开发与消融研究。

解决学术问题

该数据集有效缓解了大规模语料库对计算资源的苛刻需求，为数据分布分析和采样方法研究提供了标准化基准。通过精确控制词汇总量与文档数量，它助力学术界探索语言模型缩放规律与数据效率优化。其结构化元数据更支持多模态信息抽取、知识图谱构建等跨领域研究，推动语言理解与生成任务的范式创新。

衍生相关工作

基于该数据集衍生的经典研究包括多语言知识迁移、长文本建模等方向。学者们利用其标准化抽样方法构建了领域自适应预训练框架，并在低资源语言任务中验证了知识蒸馏的有效性。部分工作进一步结合信息框与维基文本字段，开发出融合结构化知识的神经语义解析器，推动了语义Web与自然语言处理的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集