fineweb-tokenized

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/anisoleai/fineweb-tokenized

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb Tokenized Corpus 是一个大规模预分词版本的 FineWeb 数据集，专为高效训练语言模型而设计。该数据集包含使用 SentencePiece 分词器处理后的 FineWeb 语料文本，分词结果以紧凑的 uint16 格式存储，便于高效存储和高吞吐量训练。每个数据记录包含一个表示连续分词文本序列的扁平数组（token IDs）。数据集采用分片结构组织，支持快速加载、最小内存开销和高效的分布式训练。该数据集适用于大型语言模型预训练、分词器基准测试、分布式LLM训练流程以及学术和商业AI研究。原始数据来源于 FineWeb 数据集，遵循 Open Data Commons Attribution License (ODC-BY) v1.0 许可。需要注意的是，该数据集仅包含分词ID，不包含原始文本，分词ID对应随附的 SentencePiece 分词器。

创建时间：

2026-03-03

原始信息汇总

FineWeb Tokenized Corpus (AnisoleAI) 数据集概述

数据集简介

这是一个大规模预分词版本的FineWeb数据集，旨在为语言模型训练提供高效支持。
数据集包含来自FineWeb语料库的文本，这些文本已使用SentencePiece分词器进行分词。
分词后的词元以紧凑的**uint16格式**存储，以实现高效存储和高吞吐量训练。
每个数据记录包含一个词元ID的扁平数组，代表一个连续的分词文本序列。
此格式支持快速加载、最小内存开销、高效的分布式训练，并可直接与LLM训练流水线兼容。
未对原始FineWeb数据集进行语义修改，仅进行了分词并序列化到分片文件中。

数据集结构

数据集组织在多个分片目录中，路径模式为：data_1/shard-*.parquet 至 data_20/shard-*.parquet。
每个分片包含一个字段：token_ids: uint16[]。
每条记录存储一个连续的、可分词的片段，可直接用于模型训练。

加载与使用

可使用HuggingFace datasets库加载数据集，指定split="shard"。
数据集支持流式传输、分布式加载和部分下载。
用于生成该语料库的分词器包含在此存储库中，可通过HuggingFace Hub下载tokenizer.model文件，并使用SentencePiece加载。

预期用途

大型语言模型预训练。
分词器基准测试。
分布式LLM训练流水线。
学术AI研究。
商业AI开发。
基于分片的结构支持可扩展的多工作器训练流水线。

源数据集与许可

源数据集：FineWeb (https://huggingface.co/datasets/HuggingFaceFW/fineweb)，这是一个用于训练语言模型的大规模过滤网络语料库。
许可证：遵循原始数据集的许可证，即开放数据共享署名许可证(ODC-BY) v1.0 (https://opendatacommons.org/licenses/by/1-0/)。

归属要求

使用此数据集时，请注明：

FineWeb数据集的创建者。
AnisoleAI 负责分词流水线和数据集准备工作。

重要说明

数据集仅包含词元ID。
不包含原始原始文本。
词元ID与包含的SentencePiece分词器相对应。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模预训练语料库的构建是推动模型性能提升的关键。FineWeb-Tokenized数据集基于原始FineWeb语料库，通过SentencePiece分词器进行预处理，将文本转换为紧凑的uint16格式的令牌ID序列。这一过程保留了原始语料的语义完整性，仅进行分词与序列化操作，生成的分片文件采用Parquet格式存储，便于高效读取与分布式处理。数据集的构建注重存储效率与训练流程的兼容性，为语言模型预训练提供了可直接使用的结构化输入。

特点

该数据集的核心特征在于其预分词与高效存储的设计。所有文本内容均以令牌ID数组形式呈现，消除了训练过程中的实时分词开销，显著提升了数据加载速度与内存使用效率。数据集采用分片式结构，涵盖二十个独立目录，每个目录内包含多个Parquet格式文件，支持流式读取与分布式加载，适应多工作节点的大规模训练场景。此外，数据集配套提供了原始分词器模型，确保令牌ID与文本之间的可逆转换，为模型训练与评估提供了便利。

使用方法

使用FineWeb-Tokenized数据集时，研究人员可通过HuggingFace的datasets库直接加载，指定split参数为'shard'即可访问全部分片数据。数据集支持流式读取与部分下载，适合内存受限或分布式训练环境。加载后，每个数据样本包含一个令牌ID数组，可直接输入语言模型进行预训练。同时，用户可从仓库下载配套的SentencePiece分词器模型，用于令牌的解码与词汇分析，确保数据与模型之间的无缝对接。该数据集适用于学术研究、商业开发及分布式训练管道等多种场景。

背景与挑战

背景概述

在自然语言处理领域，大规模高质量文本语料库是训练先进语言模型的基础。FineWeb-Tokenized数据集由AnisoleAI于2024年基于HuggingFaceFW的FineWeb原始语料库构建而成，旨在为大型语言模型的预训练提供高效、可直接使用的分词数据。该数据集采用SentencePiece分词器将原始文本转换为紧凑的uint16格式令牌序列，其核心研究问题聚焦于优化数据预处理流程，以支持分布式训练环境下的高吞吐量数据加载，从而显著提升模型训练效率，对推动语言模型规模化发展具有重要影响。

当前挑战

该数据集致力于解决大规模语言模型预训练中数据预处理效率低下的核心挑战。原始文本的分词与序列化过程需平衡存储开销与读取速度，同时确保分词一致性以维持语言语义的完整性。在构建过程中，面临将海量异构网页文本转换为标准化令牌序列的工程难题，包括处理数据分片以支持并行加载、设计紧凑的二进制格式以减少存储占用，并保证与多种训练框架的兼容性。这些挑战要求精细的流程设计与严格的质量控制，以实现数据的高可用性与训练流程的无缝集成。

常用场景

衍生相关工作

围绕该数据集，学术界和工业界衍生了一系列经典研究工作。许多前沿语言模型项目将其作为核心训练数据源，验证了新型模型架构和训练算法的有效性。同时，基于其统一的分词格式，研究者开发了多种高效的训练管道和基准测试工具，进一步优化了大规模语言模型的训练流程。这些工作共同丰富了预训练数据生态，为后续更大型、更高效的语言模型研发奠定了坚实的数据基础。

数据集最近研究