fwedu-llama32k

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/rijuludar/fwedu-llama32k

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb-Edu Pre-Tokenized 是一个预分词的数据集，基于 HuggingFaceFW/fineweb-edu 数据集的子集（sample/350BT，且分数大于等于3）构建。它专门为使用 huggyllama/llama-7b 分词器的模型进行大规模语言模型预训练而准备。数据集包含约700亿个token，以二进制格式存储，并已预先混洗。每个原始文档都被包装上开始（BOS）和结束（EOS）标记，然后连接成一个连续的token流，最后被分割成固定大小为1024个token的块。数据以512MB的块为单位组织，共计261个块。该数据集适用于文本生成任务，特别是用于训练或评估基于Llama架构的模型。

FineWeb-Edu Pre-Tokenized is a pre-tokenized dataset built on a subset (sample/350BT with a score greater than or equal to 3) of the HuggingFaceFW/fineweb-edu dataset. It is specifically designed for large-scale language model pre-training using models with the huggyllama/llama-7b tokenizer. The dataset contains approximately 70 billion tokens, stored in binary format and pre-shuffled. Each original document is wrapped with beginning-of-sequence (BOS) and end-of-sequence (EOS) tokens, then concatenated into a continuous token stream, and finally split into fixed-size chunks of 1024 tokens. The data is organized into 512MB blocks, totaling 261 blocks. This dataset is suitable for text generation tasks, particularly for training or evaluating models based on the Llama architecture.

创建时间：

2026-05-14

原始信息汇总

数据集概述：FineWeb-Edu Pre-Tokenized (huggyllama/llama-7b)

基本信息

许可证：Apache-2.0
任务类型：文本生成（text-generation）
语言：英语（en）
标签：预分词（pretokenized）、FineWeb-Edu
数据规模：超过1万亿token（1T<n）

数据集来源

该数据集是对 HuggingFaceFW/fineweb-edu（sample/350BT，评分 >= 3）进行预分词处理后得到的版本。

格式与规格

属性	值
分词器	`huggyllama/llama-7b`
词表大小	32,000
数据类型	`uint16`
分块大小	512 MB
每块token数	268,435,456
块大小（Block size）	1024
每块中的块数	262,144
总块数	261
总token数	70.06B（70,061,654,016）
目标token数	70.00B（70,000,000,000）
是否洗牌	是（源数据已预洗牌）

数据打包方式

每个文档格式为：[BOS] doc_tokens [EOS]

所有文档拼接成一个连续的token流，然后切分为长度为 1024 token的块。

文件结构

dataset_info.json
sample_info.json
tokenizer/
data/*.bin（二进制token数据文件）

搜集汇总

数据集介绍

构建方式

fwedu-llama32k数据集是基于HuggingFaceFW/fineweb-edu（sample/350BT子集，评分≥3）构建的预分词版本。具体构建流程如下：首先使用huggyllama/llama-7b分词器（词表大小32,000）将原始文本转化为token序列，每个文档以[BOS]标记开始、[EOS]标记结束；随后将所有文档的token流拼接为连续序列，并切分为每块1024个token的固定长度块；数据被组织为512MB的chunk，每chunk包含268,435,456个token，总计261个chunk，共约700亿token。所有数据在源端已完成预洗牌操作，保证了样本的随机分布。

特点

该数据集的核心特点在于其高度工程化的预分词存储结构。采用uint16类型存储token ID，有效减少了存储空间占用。每个chunk大小为512MB，便于分布式加载和内存映射。数据集包含261个chunk，共70,061,654,016个token，接近700亿token的规模，适合大规模语言模型预训练。所有token已预先切分为1024长度的block，无需额外处理即可直接用于训练。配套提供SHA256校验信息，确保了数据的完整性。分词器文件也一并提供，便于用户复现编码过程。

使用方法

使用该数据集时，可直接通过numpy库高效加载二进制文件。用户可调用np.fromfile('data/fwedu-llama32k-512-0001.bin', dtype=np.uint16)读取token数据，随后使用reshape(-1, 1024)将其转换为形状为(262144, 1024)的numpy数组，每行即为一个训练样本。如需验证数据完整性，可通过读取sample_info.json文件，对每个chunk计算SHA256哈希值并与元数据比对。数据集文件包括dataset_info.json、sample_info.json、tokenizer目录和data/*.bin文件，结构清晰，便于集成到各类训练流程中。

背景与挑战

背景概述

在大规模语言模型训练中，高质量、多样化的文本数据是模型性能的关键决定因素。FineWeb-Edu作为Hugging Face社区推出的高质量教育类数据集，旨在通过过滤低质量网页内容，为模型提供更富知识密度的训练语料。fwedu-llama32k数据集由Hugging Face团队于2024年创建，基于FineWeb-Edu的350B样本子集（评分≥3），采用huggyllama/llama-7b分词器进行预分词处理，生成70B个token的连续序列。该数据集通过将文档拼接为1024 token块、统一uint16存储格式及分块校验机制，显著提升了大规模训练数据的加载效率与复现性。作为预分词数据集的标杆，fwedu-llama32k为研究者在低资源环境下复现类Llama模型训练提供了关键基础，推动了开源语言模型生态的标准化进程。

当前挑战

fwedu-llama32k数据集首先需要应对语言模型训练中数据质量与规模之间的根本矛盾。尽管FineWeb-Edu通过评分过滤提升了语料教育性，但单一阈值筛选可能忽略多领域、多风格的优质内容，导致模型在特定任务上的泛化能力受限。其次，预分词过程面临技术挑战：将261个分块、每块512MB的源数据拼接为70B tokens的连续流时，需确保分词一致性、避免截断破坏语义完整性，并保证分块间无信息泄露。此外，基于固定词汇表（32,000）的uint16编码虽然节省存储，但无法直接扩展至更大词表，限制了模型的跨语言或领域适应能力。最终，数据集的SHA-256校验机制虽保障了传输完整性，却未解决源数据中潜在的偏见或事实性错误，这些误差会在预分词后被固化，对训练公平性和模型可靠性构成潜在威胁。

常用场景

经典使用场景

在自然语言处理与大规模语言模型预训练的浩瀚领域中，FineWeb-Edu Pre-Tokenized (huggyllama/llama-7b) 数据集以其精心设计的预分词格式，成为研究者探索语言模型基础能力的理想基石。该数据集源自FineWeb-Edu的高质量教育文本，经过严格筛选（评分≥3），并采用huggyllama/llama-7b分词器进行标准化处理，将超过700亿个令牌（BOS和EOS标记包裹的文档）无缝拼接并切割为1024令牌的连续块。这一经典使用场景多见于语言模型的因果语言建模（Causal Language Modeling）任务，研究者可直接将二进制文件加载为uint16数组，高效重塑为序列批次，免去冗长的预处理步骤，从而聚焦于模型架构创新与训练策略优化。其预分块与预洗牌特性，极大简化了分布式训练中的数据加载管道，为快速验证假设提供了可靠且可复现的实验环境。

衍生相关工作

围绕FineWeb-Edu Pre-Tokenized数据集，学术界衍生出一系列具有影响力的工作。在训练效率方面，研究者基于其分块结构提出了动态批量采样算法，优化了长序列训练的梯度方差稳定性，催生了如“Chunk-ADAM”等优化器变体。在模型评估领域，该数据集被用作重建FineWeb-Edu评测基准的基石，衍生出“EduQA”和“EduReason”等面向教育文本的标准化测试集，用以衡量模型在学术语境下的事实推理与连贯性生成能力。此外，其预分词属性启发了“Token-Preserving Augmentation”技术，即在令牌空间内进行语义不变的扰动（如同义词替换），生成多样化的训练示例而不改变词汇表映射，从而提升鲁棒性。更深远地，基于此数据集预训练的模型权重（如FineWeb-Llama系列）被广泛作为下游任务的初始化参数，推动了知识蒸馏与跨任务迁移学习的研究浪潮。

数据集最近研究