HuggingFaceFW/fineweb-edu-score-2

Name: HuggingFaceFW/fineweb-edu-score-2
Creator: HuggingFaceFW
Published: 2025-07-11 20:16:52
License: 暂无描述

Hugging Face2025-07-11 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/HuggingFaceFW/fineweb-edu-score-2

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb-Edu-score-2 数据集包含了 1.3 万亿个标记的优质教育数据，这些数据是从互联网上筛选出来的。为了提高数据集的质量，我们使用 LLama3-70B-Instruct 生成的标注来开发了一个教育质量分类器，并使用这个分类器来保留最具有教育意义的网页。FineWeb-Edu 在流行基准测试中优于 FineWeb，并展示了在合成数据上训练的分类器的强大能力。

The FineWeb-Edu-score-2 dataset consists of 1.3 trillion tokens of high-quality educational data filtered from the web. To enhance the datasets quality, we developed an educational quality classifier using annotations generated by LLama3-70B-Instruct. This classifier is used to retain only the most educational web pages. FineWeb-Edu outperforms FineWeb on popular benchmarks and demonstrates the power of classifiers trained on synthetic data.

提供机构：

HuggingFaceFW

原始信息汇总

数据集概述

基本信息

许可证: odc-by
任务类别: 文本生成
语言: 英语
数据集名称: FineWeb-Edu (score >= 2)
数据量: n>1T

配置信息

默认配置:
- 分割: 训练
- 路径: data//
其他配置:
- CC-MAIN-2024-10
- CC-MAIN-2023-50
- CC-MAIN-2023-40
- CC-MAIN-2023-23
- CC-MAIN-2023-14
- CC-MAIN-2023-06
- CC-MAIN-2022-49
- CC-MAIN-2022-40
- CC-MAIN-2022-33
- CC-MAIN-2022-27
- CC-MAIN-2022-21
- CC-MAIN-2022-05
- CC-MAIN-2021-49
- CC-MAIN-2021-43
- CC-MAIN-2021-39
- CC-MAIN-2021-31
- CC-MAIN-2021-25
- CC-MAIN-2021-21
- CC-MAIN-2021-17
- CC-MAIN-2021-10
- CC-MAIN-2021-04
- CC-MAIN-2020-50
- CC-MAIN-2020-45
- CC-MAIN-2020-40
- CC-MAIN-2020-34
- CC-MAIN-2020-29
- CC-MAIN-2020-24
- CC-MAIN-2020-16
- CC-MAIN-2020-10
- CC-MAIN-2020-05
- CC-MAIN-2019-51
- CC-MAIN-2019-47
- CC-MAIN-2019-43
- CC-MAIN-2019-39
- CC-MAIN-2019-35
- CC-MAIN-2019-30
- CC-MAIN-2019-26
- CC-MAIN-2019-22
- CC-MAIN-2019-18
- CC-MAIN-2019-13
- CC-MAIN-2019-09
- CC-MAIN-2019-04
- CC-MAIN-2018-51
- CC-MAIN-2018-47
- CC-MAIN-2018-43
- CC-MAIN-2018-39
- CC-MAIN-2018-34
- CC-MAIN-2018-30
- CC-MAIN-2018-26
- CC-MAIN-2018-22
- CC-MAIN-2018-17
- CC-MAIN-2018-13
- CC-MAIN-2018-09
- CC-MAIN-2018-05
- CC-MAIN-2017-51
- CC-MAIN-2017-47
- CC-MAIN-2017-43
- CC-MAIN-2017-39
- CC-MAIN-2017-34
- CC-MAIN-2017-30
- CC-MAIN-2017-26
- CC-MAIN-2017-22
- CC-MAIN-2017-17
- CC-MAIN-2017-13
- CC-MAIN-2017-09
- CC-MAIN-2017-04
- CC-MAIN-2016-50
- CC-MAIN-2016-44
- CC-MAIN-2016-40
- CC-MAIN-2016-36
- CC-MAIN-2016-30
- CC-MAIN-2016-26
- CC-MAIN-2016-22
- CC-MAIN-2016-18
- CC-MAIN-2016-07
- CC-MAIN-2015-48
- CC-MAIN-2015-40
- CC-MAIN-2015-35
- CC-MAIN-2015-32
- CC-MAIN-2015-27
- CC-MAIN-2015-22
- CC-MAIN-2015-18
- CC-MAIN-2015-14
- CC-MAIN-2015-11
- CC-MAIN-2015-06
- CC-MAIN-2014-52
- CC-MAIN-2014-49
- CC-MAIN-2014-42
- CC-MAIN-2014-41
- CC-MAIN-2014-35
- CC-MAIN-2014-23
- CC-MAIN-2014-15
- CC-MAIN-2014-10
- CC-MAIN-2013-48
- CC-MAIN-2013-20

数据集描述

数据集内容: FineWeb-Edu 数据集包含 1.3T 令牌 的优质教育内容，从 FineWeb 数据集中筛选出 5.4T 令牌的教育网页数据。
版本说明: 此版本使用较低的教育评分阈值（=2），导致文档数量更多，但质量相对较低。

数据集使用

加载数据集:
- 使用 datatrove: python from datatrove.pipeline.readers import ParquetReader
  
  data_reader = ParquetReader("hf://datasets/HuggingFaceFW/fineweb-edu-score-2", glob_pattern="data//.parquet", limit=1000) for document in data_reader(): print(document)
- 使用 datasets: python from datasets import load_dataset
  
  fw = load_dataset("HuggingFaceFW/fineweb-edu-score-2", name="CC-MAIN-2024-10", split="train", streaming=True)

数据集创建

分类器训练: 使用 LLama3-70B-Instruct 生成的注释来训练一个教育质量分类器，基于 Snowflake-arctic-embed。
过滤和结果: 通过设置不同的阈值进行过滤，最终保留了 1.3T 教育令牌。

数据集影响

社会影响: 通过公开发布数据集，旨在使模型训练更加普及，降低数据集创建的成本和时间。
偏见讨论: 通过 URL 过滤减少了 NSFW 和有毒内容。

搜集汇总

数据集介绍

构建方式

该数据集的构建采用了基于合成数据训练的教育质量分类器，对CommonCrawl公开的网页数据进行过滤，保留了教育质量较高的页面，构建了包含1.3T tokens的教育网页数据集。

特点

数据集的特点在于其高质量的教育内容，是通过一个基于LLama3-70B-Instruct模型注释的合成数据训练的教育质量分类器筛选得到的，具有显著优于其他开放网络数据集的教育基准测试性能。

使用方法

使用该数据集时，可以直接通过HuggingFace的datasets库加载整个数据集或特定年份和周数的爬取数据。同时，也可以使用datatrove库进行流式处理，支持自定义的数据处理流程。

背景与挑战

背景概述

FineWeb-Edu 数据集是由HuggingFace团队创建的，旨在提供高质量的教育内容数据。该数据集包含了1.3万亿个标记，是从FineWeb数据集中过滤出的具有教育价值的网页内容。FineWeb-Edu的构建采用了基于合成数据训练的教育质量分类器，以保留最具教育性的网页内容。该数据集在多个教育基准测试中表现优异，超过了FineWeb和其他开放网络数据集。

当前挑战

在构建FineWeb-Edu数据集的过程中，研究人员面临着多个挑战。首先，如何准确识别和过滤出具有教育价值的内容是一个关键问题。其次，构建过程中需要处理大量的数据，这对计算资源提出了较高要求。此外，选择合适的分类器阈值以平衡数据质量和数量也是一个挑战。最后，确保数据集的多样性和覆盖面，以适应不同的教育场景和应用，也是数据集构建中需要考虑的问题。

常用场景

经典使用场景

FineWeb-Edu 数据集被广泛用于文本生成任务，特别是在教育内容生成领域，它提供了丰富的教育资源，有助于模型学习如何生成符合教育质量标准的内容。

衍生相关工作

基于FineWeb-Edu 数据集，研究者可以进一步开发更先进的文本质量评估模型，或者构建更加专业的教育内容生成系统，推动教育技术的发展。

数据集最近研究