HuggingFaceFW/fineweb-edu-score-2
收藏Hugging Face2025-07-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceFW/fineweb-edu-score-2
下载链接
链接失效反馈官方服务:
资源简介:
FineWeb-Edu-score-2 数据集包含了 1.3 万亿个标记的优质教育数据,这些数据是从互联网上筛选出来的。为了提高数据集的质量,我们使用 LLama3-70B-Instruct 生成的标注来开发了一个教育质量分类器,并使用这个分类器来保留最具有教育意义的网页。FineWeb-Edu 在流行基准测试中优于 FineWeb,并展示了在合成数据上训练的分类器的强大能力。
The FineWeb-Edu-score-2 dataset consists of 1.3 trillion tokens of high-quality educational data filtered from the web. To enhance the datasets quality, we developed an educational quality classifier using annotations generated by LLama3-70B-Instruct. This classifier is used to retain only the most educational web pages. FineWeb-Edu outperforms FineWeb on popular benchmarks and demonstrates the power of classifiers trained on synthetic data.
提供机构:
HuggingFaceFW
原始信息汇总
数据集概述
基本信息
- 许可证: odc-by
- 任务类别: 文本生成
- 语言: 英语
- 数据集名称: FineWeb-Edu (score >= 2)
- 数据量: n>1T
配置信息
- 默认配置:
- 分割: 训练
- 路径: data//
- 其他配置:
- CC-MAIN-2024-10
- CC-MAIN-2023-50
- CC-MAIN-2023-40
- CC-MAIN-2023-23
- CC-MAIN-2023-14
- CC-MAIN-2023-06
- CC-MAIN-2022-49
- CC-MAIN-2022-40
- CC-MAIN-2022-33
- CC-MAIN-2022-27
- CC-MAIN-2022-21
- CC-MAIN-2022-05
- CC-MAIN-2021-49
- CC-MAIN-2021-43
- CC-MAIN-2021-39
- CC-MAIN-2021-31
- CC-MAIN-2021-25
- CC-MAIN-2021-21
- CC-MAIN-2021-17
- CC-MAIN-2021-10
- CC-MAIN-2021-04
- CC-MAIN-2020-50
- CC-MAIN-2020-45
- CC-MAIN-2020-40
- CC-MAIN-2020-34
- CC-MAIN-2020-29
- CC-MAIN-2020-24
- CC-MAIN-2020-16
- CC-MAIN-2020-10
- CC-MAIN-2020-05
- CC-MAIN-2019-51
- CC-MAIN-2019-47
- CC-MAIN-2019-43
- CC-MAIN-2019-39
- CC-MAIN-2019-35
- CC-MAIN-2019-30
- CC-MAIN-2019-26
- CC-MAIN-2019-22
- CC-MAIN-2019-18
- CC-MAIN-2019-13
- CC-MAIN-2019-09
- CC-MAIN-2019-04
- CC-MAIN-2018-51
- CC-MAIN-2018-47
- CC-MAIN-2018-43
- CC-MAIN-2018-39
- CC-MAIN-2018-34
- CC-MAIN-2018-30
- CC-MAIN-2018-26
- CC-MAIN-2018-22
- CC-MAIN-2018-17
- CC-MAIN-2018-13
- CC-MAIN-2018-09
- CC-MAIN-2018-05
- CC-MAIN-2017-51
- CC-MAIN-2017-47
- CC-MAIN-2017-43
- CC-MAIN-2017-39
- CC-MAIN-2017-34
- CC-MAIN-2017-30
- CC-MAIN-2017-26
- CC-MAIN-2017-22
- CC-MAIN-2017-17
- CC-MAIN-2017-13
- CC-MAIN-2017-09
- CC-MAIN-2017-04
- CC-MAIN-2016-50
- CC-MAIN-2016-44
- CC-MAIN-2016-40
- CC-MAIN-2016-36
- CC-MAIN-2016-30
- CC-MAIN-2016-26
- CC-MAIN-2016-22
- CC-MAIN-2016-18
- CC-MAIN-2016-07
- CC-MAIN-2015-48
- CC-MAIN-2015-40
- CC-MAIN-2015-35
- CC-MAIN-2015-32
- CC-MAIN-2015-27
- CC-MAIN-2015-22
- CC-MAIN-2015-18
- CC-MAIN-2015-14
- CC-MAIN-2015-11
- CC-MAIN-2015-06
- CC-MAIN-2014-52
- CC-MAIN-2014-49
- CC-MAIN-2014-42
- CC-MAIN-2014-41
- CC-MAIN-2014-35
- CC-MAIN-2014-23
- CC-MAIN-2014-15
- CC-MAIN-2014-10
- CC-MAIN-2013-48
- CC-MAIN-2013-20
数据集描述
- 数据集内容: FineWeb-Edu 数据集包含 1.3T 令牌 的优质教育内容,从 FineWeb 数据集中筛选出 5.4T 令牌的教育网页数据。
- 版本说明: 此版本使用较低的教育评分阈值(=2),导致文档数量更多,但质量相对较低。
数据集使用
- 加载数据集:
-
使用
datatrove: python from datatrove.pipeline.readers import ParquetReaderdata_reader = ParquetReader("hf://datasets/HuggingFaceFW/fineweb-edu-score-2", glob_pattern="data//.parquet", limit=1000) for document in data_reader(): print(document)
-
使用
datasets: python from datasets import load_datasetfw = load_dataset("HuggingFaceFW/fineweb-edu-score-2", name="CC-MAIN-2024-10", split="train", streaming=True)
-
数据集创建
- 分类器训练: 使用 LLama3-70B-Instruct 生成的注释来训练一个教育质量分类器,基于 Snowflake-arctic-embed。
- 过滤和结果: 通过设置不同的阈值进行过滤,最终保留了 1.3T 教育令牌。
数据集影响
- 社会影响: 通过公开发布数据集,旨在使模型训练更加普及,降低数据集创建的成本和时间。
- 偏见讨论: 通过 URL 过滤减少了 NSFW 和有毒内容。
搜集汇总
数据集介绍

构建方式
该数据集的构建采用了基于合成数据训练的教育质量分类器,对CommonCrawl公开的网页数据进行过滤,保留了教育质量较高的页面,构建了包含1.3T tokens的教育网页数据集。
特点
数据集的特点在于其高质量的教育内容,是通过一个基于LLama3-70B-Instruct模型注释的合成数据训练的教育质量分类器筛选得到的,具有显著优于其他开放网络数据集的教育基准测试性能。
使用方法
使用该数据集时,可以直接通过HuggingFace的datasets库加载整个数据集或特定年份和周数的爬取数据。同时,也可以使用datatrove库进行流式处理,支持自定义的数据处理流程。
背景与挑战
背景概述
FineWeb-Edu 数据集是由HuggingFace团队创建的,旨在提供高质量的教育内容数据。该数据集包含了1.3万亿个标记,是从FineWeb数据集中过滤出的具有教育价值的网页内容。FineWeb-Edu的构建采用了基于合成数据训练的教育质量分类器,以保留最具教育性的网页内容。该数据集在多个教育基准测试中表现优异,超过了FineWeb和其他开放网络数据集。
当前挑战
在构建FineWeb-Edu数据集的过程中,研究人员面临着多个挑战。首先,如何准确识别和过滤出具有教育价值的内容是一个关键问题。其次,构建过程中需要处理大量的数据,这对计算资源提出了较高要求。此外,选择合适的分类器阈值以平衡数据质量和数量也是一个挑战。最后,确保数据集的多样性和覆盖面,以适应不同的教育场景和应用,也是数据集构建中需要考虑的问题。
常用场景
经典使用场景
FineWeb-Edu 数据集被广泛用于文本生成任务,特别是在教育内容生成领域,它提供了丰富的教育资源,有助于模型学习如何生成符合教育质量标准的内容。
衍生相关工作
基于FineWeb-Edu 数据集,研究者可以进一步开发更先进的文本质量评估模型,或者构建更加专业的教育内容生成系统,推动教育技术的发展。
数据集最近研究
最新研究方向
该数据集最新研究方向关注于利用合成数据训练出的分类器来筛选教育内容,通过设定不同的阈值以保留高质量的教育页面。研究结果表明,使用Llama3-70B-Instruct生成的注释来训练BERT-like回归模型,可以实现较高的分类准确度。此外,研究还探讨了不同阈值对过滤结果的影响,最终构建了FineWeb-Edu数据集,该数据集在教育基准测试中表现优于其他开放网络数据集。
以上内容由遇见数据集搜集并总结生成



