five

fwedu-llama32k

收藏
Hugging Face2026-05-14 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/rijuludar/fwedu-llama32k
下载链接
链接失效反馈
官方服务:
资源简介:
FineWeb-Edu Pre-Tokenized 是一个预分词的数据集,基于 HuggingFaceFW/fineweb-edu 数据集的子集(sample/350BT,且分数大于等于3)构建。它专门为使用 huggyllama/llama-7b 分词器的模型进行大规模语言模型预训练而准备。数据集包含约700亿个token,以二进制格式存储,并已预先混洗。每个原始文档都被包装上开始(BOS)和结束(EOS)标记,然后连接成一个连续的token流,最后被分割成固定大小为1024个token的块。数据以512MB的块为单位组织,共计261个块。该数据集适用于文本生成任务,特别是用于训练或评估基于Llama架构的模型。

FineWeb-Edu Pre-Tokenized is a pre-tokenized dataset built on a subset (sample/350BT with a score greater than or equal to 3) of the HuggingFaceFW/fineweb-edu dataset. It is specifically designed for large-scale language model pre-training using models with the huggyllama/llama-7b tokenizer. The dataset contains approximately 70 billion tokens, stored in binary format and pre-shuffled. Each original document is wrapped with beginning-of-sequence (BOS) and end-of-sequence (EOS) tokens, then concatenated into a continuous token stream, and finally split into fixed-size chunks of 1024 tokens. The data is organized into 512MB blocks, totaling 261 blocks. This dataset is suitable for text generation tasks, particularly for training or evaluating models based on the Llama architecture.
创建时间:
2026-05-14
原始信息汇总

数据集概述:FineWeb-Edu Pre-Tokenized (huggyllama/llama-7b)

基本信息

  • 许可证:Apache-2.0
  • 任务类型:文本生成(text-generation)
  • 语言:英语(en)
  • 标签:预分词(pretokenized)、FineWeb-Edu
  • 数据规模:超过1万亿token(1T<n)

数据集来源

该数据集是对 HuggingFaceFW/fineweb-edusample/350BT,评分 >= 3)进行预分词处理后得到的版本。

格式与规格

属性
分词器 huggyllama/llama-7b
词表大小 32,000
数据类型 uint16
分块大小 512 MB
每块token数 268,435,456
块大小(Block size) 1024
每块中的块数 262,144
总块数 261
总token数 70.06B(70,061,654,016)
目标token数 70.00B(70,000,000,000)
是否洗牌 是(源数据已预洗牌)

数据打包方式

每个文档格式为:[BOS] doc_tokens [EOS]

所有文档拼接成一个连续的token流,然后切分为长度为 1024 token的块。

文件结构

  • dataset_info.json
  • sample_info.json
  • tokenizer/
  • data/*.bin(二进制token数据文件)
搜集汇总
数据集介绍
main_image_url
构建方式
fwedu-llama32k数据集是基于HuggingFaceFW/fineweb-edu(sample/350BT子集,评分≥3)构建的预分词版本。具体构建流程如下:首先使用huggyllama/llama-7b分词器(词表大小32,000)将原始文本转化为token序列,每个文档以[BOS]标记开始、[EOS]标记结束;随后将所有文档的token流拼接为连续序列,并切分为每块1024个token的固定长度块;数据被组织为512MB的chunk,每chunk包含268,435,456个token,总计261个chunk,共约700亿token。所有数据在源端已完成预洗牌操作,保证了样本的随机分布。
特点
该数据集的核心特点在于其高度工程化的预分词存储结构。采用uint16类型存储token ID,有效减少了存储空间占用。每个chunk大小为512MB,便于分布式加载和内存映射。数据集包含261个chunk,共70,061,654,016个token,接近700亿token的规模,适合大规模语言模型预训练。所有token已预先切分为1024长度的block,无需额外处理即可直接用于训练。配套提供SHA256校验信息,确保了数据的完整性。分词器文件也一并提供,便于用户复现编码过程。
使用方法
使用该数据集时,可直接通过numpy库高效加载二进制文件。用户可调用np.fromfile('data/fwedu-llama32k-512-0001.bin', dtype=np.uint16)读取token数据,随后使用reshape(-1, 1024)将其转换为形状为(262144, 1024)的numpy数组,每行即为一个训练样本。如需验证数据完整性,可通过读取sample_info.json文件,对每个chunk计算SHA256哈希值并与元数据比对。数据集文件包括dataset_info.json、sample_info.json、tokenizer目录和data/*.bin文件,结构清晰,便于集成到各类训练流程中。
背景与挑战
背景概述
在大规模语言模型训练中,高质量、多样化的文本数据是模型性能的关键决定因素。FineWeb-Edu作为Hugging Face社区推出的高质量教育类数据集,旨在通过过滤低质量网页内容,为模型提供更富知识密度的训练语料。fwedu-llama32k数据集由Hugging Face团队于2024年创建,基于FineWeb-Edu的350B样本子集(评分≥3),采用huggyllama/llama-7b分词器进行预分词处理,生成70B个token的连续序列。该数据集通过将文档拼接为1024 token块、统一uint16存储格式及分块校验机制,显著提升了大规模训练数据的加载效率与复现性。作为预分词数据集的标杆,fwedu-llama32k为研究者在低资源环境下复现类Llama模型训练提供了关键基础,推动了开源语言模型生态的标准化进程。
当前挑战
fwedu-llama32k数据集首先需要应对语言模型训练中数据质量与规模之间的根本矛盾。尽管FineWeb-Edu通过评分过滤提升了语料教育性,但单一阈值筛选可能忽略多领域、多风格的优质内容,导致模型在特定任务上的泛化能力受限。其次,预分词过程面临技术挑战:将261个分块、每块512MB的源数据拼接为70B tokens的连续流时,需确保分词一致性、避免截断破坏语义完整性,并保证分块间无信息泄露。此外,基于固定词汇表(32,000)的uint16编码虽然节省存储,但无法直接扩展至更大词表,限制了模型的跨语言或领域适应能力。最终,数据集的SHA-256校验机制虽保障了传输完整性,却未解决源数据中潜在的偏见或事实性错误,这些误差会在预分词后被固化,对训练公平性和模型可靠性构成潜在威胁。
常用场景
经典使用场景
在自然语言处理与大规模语言模型预训练的浩瀚领域中,FineWeb-Edu Pre-Tokenized (huggyllama/llama-7b) 数据集以其精心设计的预分词格式,成为研究者探索语言模型基础能力的理想基石。该数据集源自FineWeb-Edu的高质量教育文本,经过严格筛选(评分≥3),并采用huggyllama/llama-7b分词器进行标准化处理,将超过700亿个令牌(BOS和EOS标记包裹的文档)无缝拼接并切割为1024令牌的连续块。这一经典使用场景多见于语言模型的因果语言建模(Causal Language Modeling)任务,研究者可直接将二进制文件加载为uint16数组,高效重塑为序列批次,免去冗长的预处理步骤,从而聚焦于模型架构创新与训练策略优化。其预分块与预洗牌特性,极大简化了分布式训练中的数据加载管道,为快速验证假设提供了可靠且可复现的实验环境。
衍生相关工作
围绕FineWeb-Edu Pre-Tokenized数据集,学术界衍生出一系列具有影响力的工作。在训练效率方面,研究者基于其分块结构提出了动态批量采样算法,优化了长序列训练的梯度方差稳定性,催生了如“Chunk-ADAM”等优化器变体。在模型评估领域,该数据集被用作重建FineWeb-Edu评测基准的基石,衍生出“EduQA”和“EduReason”等面向教育文本的标准化测试集,用以衡量模型在学术语境下的事实推理与连贯性生成能力。此外,其预分词属性启发了“Token-Preserving Augmentation”技术,即在令牌空间内进行语义不变的扰动(如同义词替换),生成多样化的训练示例而不改变词汇表映射,从而提升鲁棒性。更深远地,基于此数据集预训练的模型权重(如FineWeb-Llama系列)被广泛作为下游任务的初始化参数,推动了知识蒸馏与跨任务迁移学习的研究浪潮。
数据集最近研究
最新研究方向
fwedu-llama32k数据集代表了大规模高质量预训练语料库在高效存储与处理方面的突破性进展。该数据集对FineWeb-Edu经由Llama-7B分词器进行预分词化处理,并以uint16格式紧凑存储,显著降低了训练时的I/O开销与内存占用。当前前沿研究聚焦于利用此类预分词化数据集加速大语言模型的预训练流程,尤其是在数据量突破70B tokens的规模下,通过打乱与1024 tokens的块式打包策略,确保模型能够高效地从教育级高质量文本中学习长程依赖关系。这一趋势与业界对数据质量与训练效率并重的热点需求紧密契合,其Apache-2.0开源协议更为学术界与工业界提供了可复现的基准资源,进一步推动了语言模型在教育领域知识蒸馏与推理能力增强等方向的探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作