FineWeb-Edu - 精选教育资源网络数据集|教育资源数据集|机器学习数据集

huggingface2024-06-03 更新2024-12-12 收录

教育资源

机器学习

下载链接：

https://hf-mirror.com/datasets/HuggingFaceFW/fineweb-edu

下载链接

链接失效反馈

资源简介：

FineWeb-Edu数据集由HuggingFace团队推出，这是 FineWeb 的一个子集，专注于教育内容，表现优于所有公开可访问的网络数据集。该数据集提供了两种大小/过滤级别：1.3 万亿和5.4万亿Token，均使用 GPT2 分词器进行测量。FineWeb-Edu子集基于最近出现的一种过滤LLM训练数据集的新方法：使用合成数据来开发识别教育内容的分类器。这项技术在 Llama 3 和 Phi3 的训练中得到了显著应用，但它对网络数据过滤的大规模影响迄今为止尚未得到充分的公开发掘。团队为了进一步提高 FineWeb的质量，利用 Llama-3-70B-Instruct 生成的注释开发了一个教育质量分类器，创建了 FineWeb-Edu。此数据集不仅为机器学习社区提供了一个用于模型训练的高质量资源，还特别针对教育领域的内容进行了优化，以期解决教育资源的质量和可获取性问题。FineWeb-Edu的发布，标志着在开放教育资源领域的一次重要进步。

创建时间：

2024-05-28

原始信息汇总

FineWeb-Edu 数据集概述

基本信息

名称: FineWeb-Edu
许可证: odc-by
任务类别: 文本生成
语言: 英语 (en)
数据规模: >1T
版本: 1.3.0 (31-01-2025)

数据集内容

总规模: 1.3万亿 tokens (另有5.4万亿 tokens版本 FineWeb-Edu-score-2)
来源: 从FineWeb数据集中筛选的教育类网页内容
特征字段:
- text: 文本内容
- id: 唯一标识符
- dump: 来源dump
- url: 网页URL
- date: 日期
- file_path: 文件路径
- language: 语言
- language_score: 语言评分
- token_count: token计数
- score: 评分
- int_score: 整数评分

配置选项

default: 完整数据集
sample-10BT: 约100亿 tokens样本
sample-100BT: 约1000亿 tokens样本
sample-350BT: 约3500亿 tokens样本
*CC-MAIN-系列: 按时间划分的CommonCrawl数据dump (2013-2024)

关键特点

使用教育质量分类器筛选
分类器基于Llama3-70B-Instruct生成的标注训练
在多个基准测试中表现优于原始FineWeb数据集

加载方式

支持通过datatrove和datasets库加载完整数据集或特定dump

版本更新

v1.3.0: 修复了部分dump的数据处理问题
v1.2.0: 新增9个2024年4-12月的快照
v1.0.0: 初始版本

AI搜集汇总

数据集介绍

构建方式

FineWeb-Edu数据集的构建基于对FineWeb数据集的精选，通过使用LLama3-70B-Instruct生成的注释训练了一个教育质量分类器。该分类器用于筛选出最具教育价值的网页内容，最终形成了包含1.3万亿标记的数据集。数据集的构建过程包括对500k个FineWeb样本进行教育质量评分，并通过回归模型进行训练，最终达到82%的F1分数。

特点

FineWeb-Edu数据集的特点在于其专注于教育内容的精选，涵盖了从2013年至今的所有经过筛选的CommonCrawl数据。数据集不仅包含文本内容，还提供了丰富的元数据，如URL、日期、语言评分等。此外，数据集还提供了多个子集配置，如sample-10BT、sample-100BT和sample-350BT，便于用户根据需求选择不同规模的数据进行实验。

使用方法

FineWeb-Edu数据集可以通过datatrove或datasets库进行加载。用户可以选择加载整个数据集或特定的CommonCrawl快照。使用datatrove时，可以通过ParquetReader读取数据，并配合LambdaFilter和JsonlWriter进行数据处理和存储。使用datasets库时，可以通过load_dataset函数加载数据集，并选择特定的子集进行流式处理。数据集的使用方法灵活多样，适用于不同的研究需求。

背景与挑战

背景概述

FineWeb-Edu数据集是由HuggingFace团队于2024年推出的一个专注于教育资源的精选网络数据集，旨在为自然语言处理领域提供高质量的教育文本数据。该数据集基于FineWeb数据集，通过使用LLama3-70B-Instruct生成的标注训练了一个教育质量分类器，筛选出最具教育价值的网页内容。FineWeb-Edu包含了自2013年以来的所有经过筛选的CommonCrawl数据，总量达到1.3万亿个标记。该数据集的推出不仅为教育领域的文本生成任务提供了丰富的资源，还展示了基于合成数据训练的分类器在数据过滤中的强大潜力。FineWeb-Edu在多个基准测试中表现优异，进一步验证了其在提升模型性能方面的价值。

当前挑战

FineWeb-Edu数据集在构建过程中面临的主要挑战包括教育内容的质量评估与筛选。首先，如何准确评估网页内容的教育价值是一个复杂的问题，尤其是在面对大量异构数据时。尽管使用了LLama3-70B-Instruct生成的标注，但如何确保这些标注的准确性和一致性仍然是一个难题。其次，数据过滤过程中需要平衡教育内容的广度和深度，既要保留基础教育内容，又要避免过度偏向技术性较强的材料。此外，数据集的规模庞大，处理1.3万亿标记的数据需要大量的计算资源，尤其是在训练分类器和进行数据过滤时，耗费了数千小时的GPU时间。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和应用提出了更高的要求。

常用场景

经典使用场景

FineWeb-Edu数据集作为精选教育资源网络数据集，广泛应用于自然语言处理领域，特别是在文本生成任务中。其庞大的数据量和高质量的教育内容使其成为训练大规模语言模型（LLMs）的理想选择。研究人员和开发者常利用该数据集来提升模型在教育相关任务中的表现，如问答系统、知识推理和文本摘要等。

解决学术问题

FineWeb-Edu数据集通过其精选的教育内容，解决了大规模语言模型训练中数据质量参差不齐的问题。通过使用基于LLama3-70B-Instruct的合成数据训练的分类器，该数据集能够有效过滤出高质量的教育网页，显著提升了模型在多个基准测试中的表现。这一创新方法为数据筛选提供了新的思路，推动了教育领域自然语言处理技术的发展。

衍生相关工作

FineWeb-Edu数据集的发布催生了一系列相关研究工作。例如，基于该数据集训练的模型在多个自然语言处理任务中表现出色，推动了教育领域文本生成和知识推理技术的发展。此外，该数据集还启发了其他研究者开发类似的高质量数据筛选工具，进一步提升了大规模语言模型的训练效果。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

XJTU-SY Bearing Datasets

XJTU-SY轴承数据集由西安交通大学设计科学与基础部件研究所和浙江长兴Sumyoung科技有限公司提供。数据集包含了15个滚动轴承从运行到故障的完整数据，这些数据是通过进行多次加速退化实验获得的。这些数据集公开可用，任何人都可以使用它们来验证滚动轴承的预测算法。