SandyResearch/fineweb-edu-shuffled
收藏Hugging Face2026-04-11 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/SandyResearch/fineweb-edu-shuffled
下载链接
链接失效反馈官方服务:
资源简介:
---
license: odc-by
task_categories:
- text-generation
language:
- en
size_categories:
- 100B<n<1T
configs:
- config_name: sample-100BT
data_files:
- split: train
path: data/sample-100BT/train/*.parquet
- config_name: sample-350BT
data_files:
- split: train
path: data/sample-350BT/train/*.parquet
- config_name: val
data_files:
- split: train
path: data/val/train/*.parquet
---
# FineWeb-EDU Shuffled
Pre-shuffled versions of [HuggingFaceFW/fineweb-edu](https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu).
## Configs
| Config | Shards | ~Rows | Description |
|--------|--------|-------|-------------|
| `sample-100BT` | ~1800 | ~96M | 100B token sample, shuffled |
| `sample-350BT` | ~1340 | ~335M | 350B token sample, shuffled, deduplicated against val |
| `val` | ~18 | ~4.5M | Validation set (held out from 100BT) |
## Usage
```python
from datasets import load_dataset
# Load 100B token training set
ds_100b = load_dataset("SandyResearch/fineweb-edu-shuffled", "sample-100BT", split="train")
# Load 350B token training set
ds_350b = load_dataset("SandyResearch/fineweb-edu-shuffled", "sample-350BT", split="train")
# Load validation set
ds_val = load_dataset("SandyResearch/fineweb-edu-shuffled", "val", split="train")
```
## Format
Each row contains a single `text` field with the document content.
Each shard is ~250k rows, gzip compressed parquet.
## Processing
- **100BT**: Shuffled version of fineweb-edu sample-100BT (via karpathy/fineweb-edu-100b-shuffle)
- **350BT**: sample-350BT deduplicated against val set by text hash, then shuffled
- **val**: Held-out shards from 100BT (~1% of data)
license: odc-by
task_categories:
- 文本生成
language:
- 英语
size_categories:
- 100B<n<1T
configs:
- config_name: sample-100BT
data_files:
- 拆分方式: 训练集
文件路径: data/sample-100BT/train/*.parquet
- config_name: sample-350BT
data_files:
- 拆分方式: 训练集
文件路径: data/sample-350BT/train/*.parquet
- config_name: val
data_files:
- 拆分方式: 训练集
文件路径: data/val/train/*.parquet
# FineWeb-EDU 混洗版
本数据集为[HuggingFaceFW/fineweb-edu](https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu)的预混洗版本。
## 配置项
| 配置名称 | 数据分片数 | 近似行数 | 描述 |
|--------|--------|-------|-------------|
| `sample-100BT` | ~1800 | ~96M | 100B Token 样本,已完成混洗 |
| `sample-350BT` | ~1340 | ~335M | 350B Token 样本,已混洗且与验证集去重 |
| `val` | ~18 | ~4.5M | 验证集(从 100BT 数据集中留出的子集) |
## 使用方法
python
from datasets import load_dataset
# 加载 100B Token 训练集
ds_100b = load_dataset("SandyResearch/fineweb-edu-shuffled", "sample-100BT", split="train")
# 加载 350B Token 训练集
ds_350b = load_dataset("SandyResearch/fineweb-edu-shuffled", "sample-350BT", split="train")
# 加载验证集
ds_val = load_dataset("SandyResearch/fineweb-edu-shuffled", "val", split="train")
## 数据格式
每一行包含一个用于存储文档内容的 `text` 字段。
每个数据分片约包含 25 万行数据,采用 gzip 压缩的 Parquet 格式存储。
## 处理流程
- **100BT**:基于 fineweb-edu 的 sample-100BT 混洗得到的版本(通过 karpathy/fineweb-edu-100b-shuffle 工具实现)
- **350BT**:先通过文本哈希与验证集完成去重,再进行混洗的 sample-350BT 数据集
- **val**:从 100BT 数据集中留出的分片(约占总数据的 1%)
提供机构:
SandyResearch
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,大规模文本语料库的构建是推动模型性能提升的关键。FineWeb-EDU Shuffled数据集基于HuggingFaceFW/fineweb-edu原始数据,通过精心设计的预处理流程生成。具体而言,该数据集包含三个配置:sample-100BT配置通过对原始100B词元样本进行全局随机打乱得到;sample-350BT配置则在350B词元样本基础上,先基于文本哈希值去除与验证集重复的内容,再进行随机打乱;验证集val则从100BT样本中预留约1%的数据作为独立评估部分。所有数据均以压缩的Parquet格式存储,每个分片约包含25万行文本。
特点
该数据集作为教育领域的大规模英文文本集合,其核心特点体现在规模与质量的双重优化。数据总量介于1000亿至1万亿词元之间,涵盖sample-100BT和sample-350BT两种不同规模的训练样本,以及独立的验证集,为模型训练与评估提供了灵活选择。通过全局打乱操作,有效消除了原始数据中的顺序偏差,提升了训练过程的稳定性;而针对350BT样本的去重处理,则进一步减少了数据冗余,增强了语料的多样性。每个样本仅包含单一的文本字段,格式简洁统一,便于直接应用于文本生成等下游任务。
使用方法
对于研究人员和开发者而言,使用FineWeb-EDU Shuffled数据集可便捷地通过Hugging Face的datasets库进行加载。根据具体需求,用户可选择不同的配置版本:调用load_dataset函数并指定数据集名称、配置名称及分割类型,即可分别获取100B词元训练集、350B词元训练集或验证集。加载后的数据以行式结构呈现,每行对应一个文档的完整文本内容,可直接输入模型进行预训练或微调。这种标准化的接口设计,显著降低了数据准备阶段的复杂性,支持高效的大规模语言模型实验与部署。
背景与挑战
背景概述
FineWeb-EDU Shuffled数据集由HuggingFaceFW团队构建,作为fineweb-edu数据集的预洗牌版本,旨在为大规模语言模型训练提供高质量、去重且随机排序的英文文本语料。该数据集于2024年发布,核心研究问题聚焦于解决传统网络文本数据中存在的噪声、重复及顺序偏差问题,通过精心设计的采样、去重和洗牌流程,提升语料库的多样性与均衡性,从而优化模型在文本生成等任务上的泛化能力与训练效率。其对自然语言处理领域的影响力体现在为社区提供了标准化的百亿至千亿级别token规模基准数据,推动了数据预处理技术的进步。
当前挑战
该数据集致力于应对大规模文本生成任务中数据质量与训练稳定性的核心挑战,具体包括如何从海量网络文本中筛选出教育相关的高价值内容,并有效去除重复及低质量片段,以降低模型过拟合风险。在构建过程中,挑战主要源于数据清洗与管理的复杂性,例如需设计高效的去重算法以避免信息冗余,同时通过洗牌操作打破原始数据的时间或主题顺序偏差,确保分布均匀性;此外,处理数百亿token级别的数据量对存储、计算及流程可复现性提出了严峻的技术要求。
常用场景
经典使用场景
在自然语言处理领域,大规模文本数据集是训练前沿语言模型的基础资源。FineWeb-EDU Shuffled作为一个经过预洗牌和去重处理的英文文本集合,其最经典的使用场景在于为生成式语言模型的预训练提供高质量、多样化的语料。研究者可直接加载其百亿或千亿级别的token样本,利用这些经过优化排列的文本序列,高效地训练模型以捕捉语言的内在规律和知识表示,从而推动模型在理解和生成任务上的性能提升。
衍生相关工作
围绕FineWeb-EDU Shuffled,已衍生出一系列经典研究工作。这些工作主要集中在高效训练策略、数据混合算法以及模型缩放定律的实证分析上。例如,部分研究利用其洗牌特性探索了动态批处理对训练稳定性的影响;另一些工作则结合其去重验证集,开发了新的数据筛选指标以提升语料质量。这些衍生成果不仅深化了对大规模数据作用机制的理解,也为后续更庞大语料库的构建提供了方法论借鉴。
数据集最近研究
最新研究方向
在大型语言模型预训练领域,高质量教育文本数据集的构建与优化已成为前沿焦点。FineWeb-EDU Shuffled作为经过精心去重和随机化处理的英语语料库,其最新研究主要围绕数据清洗策略对模型性能的影响展开。学者们正深入探讨大规模去重与预混洗技术如何有效缓解模型训练中的记忆效应,并提升其在复杂推理任务上的泛化能力。该数据集与当前热点事件如开源模型社区对透明数据管道的追求紧密相连,其标准化格式为可复现研究提供了坚实基础,推动了数据为中心的人工智能方法发展,对构建更高效、更可靠的下一代语言模型具有关键意义。
以上内容由遇见数据集搜集并总结生成



