FineWeb-Edu - 精选教育资源网络数据集

Hugging Face2024-06-03 更新2024-12-12 收录

下载链接：

https://hf-mirror.com/datasets/HuggingFaceFW/fineweb-edu

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb-Edu数据集由HuggingFace团队推出，这是 FineWeb 的一个子集，专注于教育内容，表现优于所有公开可访问的网络数据集。该数据集提供了两种大小/过滤级别：1.3 万亿和5.4万亿Token，均使用 GPT2 分词器进行测量。FineWeb-Edu子集基于最近出现的一种过滤LLM训练数据集的新方法：使用合成数据来开发识别教育内容的分类器。这项技术在 Llama 3 和 Phi3 的训练中得到了显著应用，但它对网络数据过滤的大规模影响迄今为止尚未得到充分的公开发掘。团队为了进一步提高 FineWeb的质量，利用 Llama-3-70B-Instruct 生成的注释开发了一个教育质量分类器，创建了 FineWeb-Edu。此数据集不仅为机器学习社区提供了一个用于模型训练的高质量资源，还特别针对教育领域的内容进行了优化，以期解决教育资源的质量和可获取性问题。FineWeb-Edu的发布，标志着在开放教育资源领域的一次重要进步。

创建时间：

2024-05-28

原始信息汇总

FineWeb-Edu 数据集概述

基本信息

名称: FineWeb-Edu
许可证: odc-by
任务类别: 文本生成
语言: 英语 (en)
数据规模: >1T
版本: 1.3.0 (31-01-2025)

数据集内容

总规模: 1.3万亿 tokens (另有5.4万亿 tokens版本 FineWeb-Edu-score-2)
来源: 从FineWeb数据集中筛选的教育类网页内容
特征字段:
- text: 文本内容
- id: 唯一标识符
- dump: 来源dump
- url: 网页URL
- date: 日期
- file_path: 文件路径
- language: 语言
- language_score: 语言评分
- token_count: token计数
- score: 评分
- int_score: 整数评分

配置选项

default: 完整数据集
sample-10BT: 约100亿 tokens样本
sample-100BT: 约1000亿 tokens样本
sample-350BT: 约3500亿 tokens样本
*CC-MAIN-系列: 按时间划分的CommonCrawl数据dump (2013-2024)

关键特点

使用教育质量分类器筛选
分类器基于Llama3-70B-Instruct生成的标注训练
在多个基准测试中表现优于原始FineWeb数据集

加载方式

支持通过datatrove和datasets库加载完整数据集或特定dump

版本更新

v1.3.0: 修复了部分dump的数据处理问题
v1.2.0: 新增9个2024年4-12月的快照
v1.0.0: 初始版本

搜集汇总

数据集介绍

构建方式

FineWeb-Edu数据集的构建基于对FineWeb数据集的精选，通过使用LLama3-70B-Instruct生成的注释训练了一个教育质量分类器。该分类器用于筛选出最具教育价值的网页内容，最终形成了包含1.3万亿标记的数据集。数据集的构建过程包括对500k个FineWeb样本进行教育质量评分，并通过回归模型进行训练，最终达到82%的F1分数。

特点

FineWeb-Edu数据集的特点在于其专注于教育内容的精选，涵盖了从2013年至今的所有经过筛选的CommonCrawl数据。数据集不仅包含文本内容，还提供了丰富的元数据，如URL、日期、语言评分等。此外，数据集还提供了多个子集配置，如sample-10BT、sample-100BT和sample-350BT，便于用户根据需求选择不同规模的数据进行实验。

使用方法

FineWeb-Edu数据集可以通过datatrove或datasets库进行加载。用户可以选择加载整个数据集或特定的CommonCrawl快照。使用datatrove时，可以通过ParquetReader读取数据，并配合LambdaFilter和JsonlWriter进行数据处理和存储。使用datasets库时，可以通过load_dataset函数加载数据集，并选择特定的子集进行流式处理。数据集的使用方法灵活多样，适用于不同的研究需求。

背景与挑战

背景概述

FineWeb-Edu数据集是由HuggingFace团队于2024年推出的一个专注于教育资源的精选网络数据集，旨在为自然语言处理领域提供高质量的教育文本数据。该数据集基于FineWeb数据集，通过使用LLama3-70B-Instruct生成的标注训练了一个教育质量分类器，筛选出最具教育价值的网页内容。FineWeb-Edu包含了自2013年以来的所有经过筛选的CommonCrawl数据，总量达到1.3万亿个标记。该数据集的推出不仅为教育领域的文本生成任务提供了丰富的资源，还展示了基于合成数据训练的分类器在数据过滤中的强大潜力。FineWeb-Edu在多个基准测试中表现优异，进一步验证了其在提升模型性能方面的价值。

当前挑战

FineWeb-Edu数据集在构建过程中面临的主要挑战包括教育内容的质量评估与筛选。首先，如何准确评估网页内容的教育价值是一个复杂的问题，尤其是在面对大量异构数据时。尽管使用了LLama3-70B-Instruct生成的标注，但如何确保这些标注的准确性和一致性仍然是一个难题。其次，数据过滤过程中需要平衡教育内容的广度和深度，既要保留基础教育内容，又要避免过度偏向技术性较强的材料。此外，数据集的规模庞大，处理1.3万亿标记的数据需要大量的计算资源，尤其是在训练分类器和进行数据过滤时，耗费了数千小时的GPU时间。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和应用提出了更高的要求。

常用场景

经典使用场景

FineWeb-Edu数据集作为精选教育资源网络数据集，广泛应用于自然语言处理领域，特别是在文本生成任务中。其庞大的数据量和高质量的教育内容使其成为训练大规模语言模型（LLMs）的理想选择。研究人员和开发者常利用该数据集来提升模型在教育相关任务中的表现，如问答系统、知识推理和文本摘要等。

解决学术问题

FineWeb-Edu数据集通过其精选的教育内容，解决了大规模语言模型训练中数据质量参差不齐的问题。通过使用基于LLama3-70B-Instruct的合成数据训练的分类器，该数据集能够有效过滤出高质量的教育网页，显著提升了模型在多个基准测试中的表现。这一创新方法为数据筛选提供了新的思路，推动了教育领域自然语言处理技术的发展。

衍生相关工作

FineWeb-Edu数据集的发布催生了一系列相关研究工作。例如，基于该数据集训练的模型在多个自然语言处理任务中表现出色，推动了教育领域文本生成和知识推理技术的发展。此外，该数据集还启发了其他研究者开发类似的高质量数据筛选工具，进一步提升了大规模语言模型的训练效果。

以上内容由遇见数据集搜集并总结生成