finewiki-10M

Hugging Face2025-11-02 更新2025-11-03 收录

下载链接：

https://huggingface.co/datasets/codelion/finewiki-10M

下载链接

链接失效反馈

官方服务：

资源简介：

FineWiki样本数据集是一个从FineWiki数据集中采样的子集，包含大约1000万个token。它使用GPT-2 tokenizer进行采样，并确保了每个文档被选中的概率相等，没有分布偏差。数据集适用于小规模的预训练实验、数据集组成研究、快速原型设计和测试以及低成本训练运行。

创建时间：

2025-11-01

原始信息汇总

FineWiki Sampled Dataset (10,000,000 tokens) 数据集概述

数据集基本信息

语言: 英语
许可证: Apache 2.0
标签: Wikipedia, FineWiki, Sampled
数据量: 7,088个文档
总标记数: 约10,000,000个标记

数据来源与采样方法

原始数据集: HuggingFaceFW/finewiki（英语子集，训练分割）
采样方法: 水库采样（无偏随机采样）
目标标记数: 10,000,000个标记
标记器: GPT-2（50,257词汇表）
随机种子: 42

采样统计信息

平均标记数/文档: 1411.0
采样算法特点:
- 无偏随机样本
- 每个文档具有相等的被选择概率
- 无分布偏差
- 基于流式处理

数据结构特征

分割: 训练集（7,088个样本）
特征字段:
- text（字符串）：维基百科文章文本
- id（字符串）：唯一标识符
- wikiname（字符串）：维基百科源名称
- page_id（int64）：维基百科页面ID
- title（字符串）：文章标题
- url（字符串）：源维基百科URL
- date_modified（字符串）：最后修改日期
- in_language（字符串）：语言代码（始终为en）
- wikidata_id（字符串）：维基数据标识符
- bytes_html（int64）：HTML内容大小
- wikitext（字符串）：原始维基文本标记
- version（int64）：文章版本号
- infoboxes（字符串）：提取的信息框数据
- has_math（布尔值）：是否包含数学公式

使用场景

小规模语言模型预训练实验
数据集组成研究
快速原型设计和测试
低成本训练运行

引用信息

bibtex @article{sharma2025billion, title={The 1 Billion Token Challenge: Finding the Perfect Pre-training Mix}, author={Sharma, Asankhaya}, year={2025}, url={https://huggingface.co/blog/codelion/optimal-dataset-mixing/} }

许可证与作者

许可证: Apache 2.0
数据集卡作者: CodeLion
联系方式: 通过数据集存储库提交问题

搜集汇总

数据集介绍

构建方式

在维基百科知识库的构建过程中，finewiki-10M数据集采用了基于流式处理的储层采样技术，从原始FineWiki英文子集的训练分割中随机抽取文档。该方法通过GPT-2分词器实时统计文本标记数量，在无需下载完整数据集的前提下，以42为随机种子持续筛选文档，直至达到1000万标记的目标规模。这种无偏采样机制确保了每个文档的入选概率均等，有效规避了数据分布的时间偏差，最终形成包含7088个文档的标准化样本集合。

特点

作为维基百科结构化数据的精炼代表，该数据集囊括了文本内容、元数据与语义标记的完整特征体系。每个样本不仅包含经过清洗的正文文本，还保留了标题、页面标识、多语言标签等15类结构化字段，其中数学公式标记与信息框数据为语义分析提供了关键维度。数据集通过统一的标记化处理使得平均文档长度稳定在1411个标记，既维持了语言模型的预训练需求，又通过标准化格式支持多任务学习场景的快速部署。

使用方法

针对自然语言处理研究场景，使用者可通过HuggingFace数据集库直接加载该资源。调用load_dataset函数并指定codelion/finewiki-10M路径即可获取训练分割，随后通过迭代器访问文本、标题等字段实现数据流水线。该设计特别适配小规模语言模型预训练实验，研究者可基于标准化接口快速构建原型系统，同时利用完整的元数据体系开展数据分布研究或跨模态分析。

背景与挑战

背景概述

FineWiki-10M数据集作为英文维基百科的结构化语料库，由CodeLion研究团队于2024年构建，旨在解决大规模语言模型预训练中数据质量与计算成本的平衡问题。该数据集通过无偏置的蓄水池采样技术，从原始FineWiki语料中提取约1000万标记的标准化样本，其多维度元数据架构覆盖文本内容、页面标识、语言特征及数学公式标记等要素，为自然语言处理领域的模型优化研究提供了高信度基准。

当前挑战

在语言模型预训练领域，该数据集需应对维基百科文本的异构性挑战，包括数学公式与结构化信息的语义融合、长文档的上下文连贯性建模等核心问题。数据构建过程中，研发团队通过流式处理与动态标记计数技术克服了原始语料规模庞大带来的存储压力，并采用GPT-2分词器确保标记边界的精确性，同时通过固定随机种子维持采样过程的可复现性，最终在计算资源受限条件下实现了无分布偏差的样本抽取。

常用场景

经典使用场景

在自然语言处理领域，finewiki-10M数据集凭借其经过无偏随机采样的高质量维基百科文本，成为语言模型预训练实验的理想基准。该数据集通过保留原始文档的完整元数据结构，为研究者提供了标准化的语料库，特别适用于探索不同规模语料对模型性能的影响。其精心设计的采样方法确保了文本分布的均衡性，使得实验结果具有高度可复现性。

实际应用

在实际应用层面，finewiki-10M常被用于快速原型开发和资源受限环境下的模型训练。教育机构可利用其进行自然语言处理课程实践，初创公司则借助其开展低成本的概念验证。该数据集还支持数据组合研究，帮助工程师评估不同数据源对模型性能的具体贡献。

衍生相关工作

基于该数据集衍生的经典研究包括《十亿token挑战：寻找最佳预训练混合策略》等重要工作。这些研究深入探讨了多源数据混合比例对模型性能的影响机制，建立了数据采样与模型效果之间的量化关系。相关成果为后续的大规模预训练实验提供了方法论指导，推动了数据高效利用理论的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集