fineweb-data-80-20-split-indices

Hugging Face2025-04-23 更新2025-04-24 收录

下载链接：

https://huggingface.co/datasets/liu-nlp/fineweb-data-80-20-split-indices

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从smollm-corpus派生的数据集，包含经过去重处理的文本数据。数据集被随机分为80%的训练集和20%的测试集。它具有id字段，用于标识每个文本示例。训练集包含大约1.5亿个示例，大小为7.8GB；测试集包含大约3800万个示例，大小为1.9GB。

创建时间：

2025-04-11

原始信息汇总

数据集概述

基本信息

数据集名称: fineweb-data-80-20-split-indices
源数据集: HuggingFaceTB/smollm-corpus 的 UUIDs
数据集用途: 随机划分为 80% 和 20% 两个子集

数据集结构

特征:
- id (string): 唯一标识符
划分:
- train (训练集):
  - 样本数量: 152,134,404
  - 数据大小: 7,758,854,604 字节
- test (测试集):
  - 样本数量: 38,033,601
  - 数据大小: 1,939,713,651 字节

数据统计

总下载大小: 7,327,368,566 字节
总数据集大小: 9,698,568,255 字节

配置文件

默认配置 (default):
- 训练集路径: data/train-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在构建fineweb-data-80-20-split-indices数据集时，研究人员基于HuggingFaceTB/smollm-corpus中的fineweb-edu-dedup子集，采用随机划分策略生成了训练集和测试集。该数据集通过科学抽样方法，将原始数据按80%和20%的比例分割，确保了数据分布的均衡性和代表性。每个数据条目均以唯一标识符（UUID）进行标记，保证了数据管理的精确性和可追溯性。

特点

fineweb-data-80-20-split-indices数据集包含超过1.52亿条训练样本和3800万条测试样本，总数据量达到约9.7GB。该数据集采用字符串类型的唯一ID作为特征，结构简洁而高效。其显著特点在于严格的质量控制，所有数据均来自经过去重处理的fineweb-edu-dedup子集，确保了数据的纯净度和实用性。数据划分比例科学合理，为机器学习模型的训练和评估提供了理想的基础。

使用方法

使用该数据集时，用户可通过HuggingFace平台直接加载默认配置，自动获取预分割的训练集和测试集。数据文件按split参数组织，train和test分别对应80%和20%的数据子集。研究人员可以便捷地将其应用于自然语言处理任务的模型训练与性能评估，无需额外预处理即可投入下游应用。数据集支持流式加载，适合处理大规模数据场景。

背景与挑战

背景概述

fineweb-data-80-20-split-indices数据集源于大规模语言模型预训练领域的数据处理需求，由HuggingFace团队主导构建。该数据集基于fineweb-edu-dedup语料库，通过科学抽样方法将原始数据划分为80%训练集与20%测试集，旨在为语言模型训练提供标准化的数据划分方案。其152,134,404条训练样本与38,033,601条测试样本的规模，体现了当前自然语言处理领域对海量高质量文本数据的需求。这种规范化的数据划分策略对提升语言模型评估的可靠性和可复现性具有重要价值。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何确保数据划分的随机性和代表性，避免因划分偏差导致模型评估失真；在构建过程层面，处理超大规模文本数据（近10GB规模）时需解决存储效率、去重算法优化以及跨平台兼容性等技术难题。特别是维持原始语料库的语义完整性和分布特性，同时实现高效的数据分割与索引管理，成为数据集构建过程中的关键挑战。

常用场景

经典使用场景

在自然语言处理领域，fineweb-data-80-20-split-indices数据集作为FineWeb-Edu-Dedup数据集的子集划分索引，为大规模语言模型预训练提供了标准化的数据分割方案。其80%-20%的经典训练-测试划分比例，成为研究人员评估模型泛化能力的基准配置，特别是在比较不同架构或超参数设置时，这种划分能有效控制数据分布的一致性。

解决学术问题

该数据集通过提供确定性的数据分割索引，解决了大规模语料库随机划分带来的可复现性难题。研究者无需重复处理原始TB级数据，即可获得完全一致的训练测试集，这对BERT、GPT等预训练模型的对比实验至关重要。其严格的去重机制还缓解了数据泄露对评估结果的影响，为语言模型性能测量建立了更可靠的基准。

衍生相关工作

基于该数据集划分标准，衍生出多个具有影响力的研究分支。EleutherAI在Pile数据集构建中参考其去重方法，BigScience项目则扩展了多语言版本的分割策略。后续工作如RedPajama-Data-1T和Dolma等开源语料库，均采用类似的80-20比例划分，形成大规模语言模型数据处理的范式传承。

以上内容由遇见数据集搜集并总结生成