fw2_edu_scores

Hugging Face2025-08-06 更新2025-08-07 收录

下载链接：

https://huggingface.co/datasets/JQL-AI/fw2_edu_scores

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb2-JQL-Education 是一个包含 36 种语言的 **模型标注** 语言子集，基于 FineWeb2 构建，专注于教育内容。该数据集使用模型标注和嵌入技术进行文档过滤和评分，从而在保留更多标记的同时，实现了更高的训练质量。与原始 FineWeb2 数据集相比，FineWeb2-JQL-Education 在质量方面取得了显著的提升。

FineWeb2-JQL-Education is a **model-annotated** language subset covering 36 languages, built upon FineWeb2 and focused on educational content. This dataset utilizes model annotation and embedding technologies for document filtering and scoring, thereby achieving higher training quality while retaining more tokens. Compared with the original FineWeb2 dataset, FineWeb2-JQL-Education has achieved significant improvements in terms of quality.

创建时间：

2025-07-30

原始信息汇总

FineWeb2-JQL-Education 数据集概述

数据集摘要

来源：基于FineWeb2的语言子集
标注方式：模型标注（model-annotated）
语言数量：36种
核心特点：通过模型标注实现高质量训练结果，同时保留更多token
应用案例：西班牙语案例显示，0.6阈值下比FW2过滤多保留9%token且质量更高

关键特性

模型标注：
- 所有文档标注可用于基于用例的个性化过滤
多语言覆盖：
- 涵盖36种语言
基于模型的过滤：
- 使用Snowflake Arctic-embed-m-v2.0嵌入分类器评分
性能提升：
- 超越FineWeb2基准性能
- 比FW2过滤保留更多token

语言和子集

36种语言子集：
- 包括阿尔巴尼亚语、保加利亚语、加泰罗尼亚语、捷克语、丹麦语、德语等
每个语言子集包含：
- 保留文档数量
- 磁盘大小
- 移除文档数量
- 移除数据磁盘大小

数据结构

数据字段

基础字段：继承自FineWeb2原始字段
新增字段：
- score_Gemma_Snowflake：Gemma-based Snowflake分类器质量分数
- score_Llama_Snowflake：Llama-based Snowflake分类器质量分数
- score_Mistral_Snowflake：Mistral-based Snowflake分类器质量分数
- embeddings：存储在单独HDF5文件中的Snowflake Arctic-embed-m-v2.0嵌入

数据实例

json { "id": "0", "file_path": "...", "document_id": "29d82196d55803ab9c792e45b59919bf_0", "source_filename": "...", "score_Gemma_Snowflake": 0.330078125, "score_Llama_Snowflake": -0.34765625, "score_Mistral_Snowflake": -0.390625 }

数据集来源

时间范围：2013-2024年网络内容
注意事项：
- 可能包含个人身份信息(PII)
- 提供PII移除/选择退出表单
- 遵守robots.txt协议

使用注意事项

社会影响、潜在偏见和已知限制请参考FineWeb2文档

引用信息

bibtex @article{ali2025judging, title = {Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models}, author = {Mehdi Ali, et al.}, year = {2025}, journal = {arXiv preprint arXiv:2505:22232} }

相关资源

FineWeb2-embeddings：发布的完整FineWeb2数据集嵌入向量
研究论文：详细技术说明

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的多语言数据集对于模型训练至关重要。FineWeb2-JQL-Education数据集基于FineWeb2语料库构建，通过Snowflake的Arctic-embed-m-v2.0嵌入分类器对文档进行评分筛选，覆盖36种语言。该数据集采用深度学习分类器对教育类样本进行标注，保留了比原始FineWeb2过滤方法更多的高质量文本，同时提升了模型在下游任务中的表现。构建过程中特别注重保持语言多样性，每种语言的数据都经过严格的质量评估和分类。

特点

该数据集最显著的特点在于其模型标注机制和多语言覆盖能力。所有文档均包含由Gemma、Llama和Mistral三种Snowflake分类器生成的质量评分，为用户提供了灵活的过滤选择。数据集涵盖从阿尔巴尼亚语到乌克兰语等36种语言，每种语言都有经过筛选和未筛选的两个子集。特别值得注意的是，该数据集在保持高质量标准的同时，相比原始FineWeb2过滤方法保留了更多有效token，如在西班牙语案例中可多保留9%的token。此外，数据集还提供了Arctic-embed-m-v2.0的嵌入向量，为其他NLP任务提供了便利。

使用方法

使用该数据集时，研究人员可根据具体需求选择不同的质量评分阈值进行数据过滤。数据集采用分语言存储的方式，每种语言都有独立的文件路径。用户可以通过score_Gemma_Snowflake等字段访问三种不同模型的质量评分，实现精细化的数据筛选。对于需要嵌入向量的应用场景，可从单独的HDF5文件中获取预计算的Arctic-embed-m-v2.0嵌入。该数据集特别适合用于多语言模型的预训练和微调，用户可参考论文中描述的2B参数LLaMA架构模型训练方法进行实验设计。需要注意的是，使用前应仔细阅读FineWeb2关于数据隐私和社会影响的文档。

背景与挑战

背景概述

FineWeb2-JQL-Education数据集是FineWeb2的一个模型标注语言子集，涵盖36种语言，旨在通过深度学习分类器识别教育样本，提升训练数据的质量。该数据集由JQL-AI团队基于Snowflake的Arctic-embed-m-v2.0嵌入模型构建，通过模型标注实现了在不显著减少数据量的情况下提高数据质量的目标。其核心研究问题在于如何在大规模多语言数据集中高效筛选高质量的教育相关内容，以支持语言模型的预训练。该数据集的发布为多语言自然语言处理研究提供了重要资源，特别是在教育领域的数据挖掘和模型优化方面具有显著影响力。

当前挑战

FineWeb2-JQL-Education数据集面临的主要挑战包括：1) 多语言数据质量评估的复杂性，不同语言的教育内容标准不一，难以统一标注；2) 数据规模庞大（超过1TB），处理与存储的技术门槛较高；3) 原始网络数据中可能存在的偏见和噪声，影响模型标注的准确性；4) 隐私保护问题，需平衡数据效用与个人信息安全的矛盾。此外，构建过程中还需解决多语言嵌入模型的适配性问题，以及如何在不损失数据多样性的前提下实现高效过滤。

常用场景

经典使用场景

在自然语言处理领域，fw2_edu_scores数据集因其多语言覆盖和高质量标注特性，成为跨语言文本质量评估研究的基准工具。该数据集通过Snowflake Arctic-embed-m-v2.0模型生成的嵌入向量，为研究者提供了标准化度量教育类文本质量的框架，特别适用于比较不同语言模型在文本过滤任务中的表现差异。其典型应用场景包括构建多语言预训练语料库时实施动态阈值过滤，以及评估低资源语言文本的语义完整性。

衍生相关工作

该数据集催生了跨语言文本质量评估的新研究方向，其标注方法被扩展应用于Legal-MT等专业领域语料构建。基于该数据集开发的动态阈值过滤算法DynaFilter被ACL2024收录，而嵌入向量复用技术则衍生出EduEmbed跨语言检索系统。相关团队进一步发布的FineWeb2-embeddings数据集，推动了文本表征学习与质量预测的联合建模研究。

数据集最近研究