hplt2_edu_scores

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/JQL-AI/hplt2_edu_scores

下载链接

链接失效反馈

官方服务：

资源简介：

HPLT2-JQL-Education是一个包含35种语言的模型注释语言子集，旨在通过深度学习分类器对教育样本进行识别并打分，以筛选出更高质量的训练数据。数据集基于HPLT2，并包含了2012年至2023年的网络内容。

创建时间：

2025-07-29

原始信息汇总

HPLT2-Edu-scores 数据集概述

数据集基本信息

任务类别: 文本排序 (text-ranking)
数据集名称: HPLT2-JQL-Education
数据规模: 大于1TB (n>1T)
支持语言: 35种欧洲语言，包括阿尔巴尼亚语、保加利亚语、加泰罗尼亚语、捷克语、丹麦语、德语、西班牙语、爱沙尼亚语、希腊语、巴斯克语、芬兰语、法语、加利西亚语、爱尔兰语、克罗地亚语、匈牙利语、亚美尼亚语、冰岛语、意大利语、拉脱维亚语、立陶宛语、马其顿语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛文尼亚语、斯洛伐克语、塞尔维亚语、土耳其语、瑞典语、挪威语等

数据集特点

数据来源: 基于HPLT2数据集的语言子集
标注方式: 模型标注
主要用途: 通过模型标注实现高质量训练结果，同时避免过度减少数据量
示例效果: 在西班牙语案例中，应用0.6阈值保留了比FW2训练集多9%以上的token，同时质量更高

数据集结构

数据字段

score_Gemma_Snowflake: Gemma-based Snowflake分类器获得的质量分数
score_Llama_Snowflake: Llama-based Snowflake分类器获得的质量分数
score_Mistral_Snowflake: Mistral-based Snowflake分类器获得的质量分数
source_filename: 原始文件的来源文件名

数据实例

json { "id": "0", "file_path": "/leonardo_scratch/large/userexternal/mfromm00/data/raw_data/HPLT2/output/embeddings/als_Latn/als_Latn/000_000_00000.jsonl.h5", "document_id": "29d82196d55803ab9c792e45b59919bf_0", "source_filename": "als_Latn/als_Latn/000_000_00000.jsonl.h5", "score_Gemma_Snowflake": 0.330078125, "score_Llama_Snowflake": -0.34765625, "score_Mistral_Snowflake": -0.390625 }

技术背景

嵌入模型: 使用Snowflakes Arctic-embed-m-v2.0嵌入训练深度学习分类器
训练模型: 使用20亿参数的密集解码器模型，遵循LLaMA架构
相关资源: 发布完整HPLT2数据集的通用嵌入向量HPLT2-embeddings

数据来源与注意事项

数据时间范围: 2012-2023年收集的网络内容
潜在问题: 可能包含个人身份信息(PII)，尽管在处理过程中已尝试匿名化电子邮件地址和公共IP地址
使用建议: 关于社会影响、潜在偏见和已知限制，请参考HPLT2文档

引用信息

bibtex @article{ali2025judging, title = {Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models}, author = {Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, Felix Stollenwerk, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting}, year = {2025}, journal = {arXiv preprint arXiv:2505:22232} }

搜集汇总

数据集介绍

构建方式

HPLT2-JQL-Education数据集作为HPLT2项目的重要子集，通过深度学习技术对多语言文本进行了精细标注。该数据集构建过程中采用了基于Snowflake Arctic-embed-m-v2.0嵌入的深度分类器，对原始网络内容进行教育价值评估，生成质量评分。研究人员遵循严格的筛选流程，在保留90%以上原始数据量的同时，确保了文本质量显著优于传统FW2启发式过滤方法。数据集覆盖35种欧洲语言，每种语言独立配置，原始数据采集时间跨度为2012至2023年。

特点

该数据集最显著的特征在于其创新的质量评分体系，包含Gemma、Llama和Mistral三种主流架构生成的独立评分指标。数据集规模超过1TB，涵盖拉丁字母、西里尔字母等多种文字体系。每个数据实例不仅包含原始文件路径信息，还提供多维度的质量评估分数，为研究者提供了丰富的元数据。特别值得注意的是，该数据集在西班牙语等语种上实现了数据量与质量的双重突破，较传统方法保留更多有效语料的同时提升了模型训练效果。

使用方法

使用者可通过HuggingFace平台直接访问该数据集，按语言配置加载特定子集。典型应用场景包括：利用评分字段进行数据过滤，构建高质量多语言训练集；分析不同评分模型间的相关性；或结合原始文本开展教育领域自然语言处理研究。为保障研究合规性，建议用户同时参考HPLT2项目文档，了解数据隐私保护等相关注意事项。数据集配套发布的嵌入向量资源，为拓展研究提供了额外支持。

背景与挑战

背景概述

HPLT2-JQL-Education数据集作为HPLT2项目的重要组成部分，由JQL-AI团队基于Snowflake Arctic-embed-m-v2.0嵌入技术构建，专注于多语言教育文本的质量评估。该数据集涵盖35种欧洲语言，通过深度学习分类器对原始网络文本进行教育价值标注，其创新性的模型标注方法在保持数据规模的同时显著提升了语料质量。相关研究成果发表于2025年arXiv预印本，为跨语言预训练数据过滤提供了新的方法论框架，对低资源语言处理和教育技术领域具有重要启示意义。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，如何准确界定多语言教育文本的语义边界，特别是处理不同文化背景下教育概念的差异性表达；在构建技术层面，需要克服非拉丁语系文字嵌入表示的质量波动，以及海量网络原始数据中存在的噪声与隐私信息过滤难题。此外，基于LLaMA架构的20亿参数模型在不同语言间的性能一致性，也是影响评分可靠性的关键因素。

常用场景

经典使用场景

在自然语言处理领域，hplt2_edu_scores数据集以其多语言特性和高质量标注，成为研究跨语言文本质量评估的经典工具。该数据集通过深度学习方法对35种语言的文本进行评分，为研究者提供了丰富的语料库，特别适用于多语言模型的训练与评估。其独特的模型标注机制，使得在保留更多数据的同时，仍能确保文本质量，为后续研究奠定了坚实基础。

衍生相关工作

hplt2_edu_scores数据集的发布催生了一系列经典研究，如基于多语言嵌入的文本质量评估框架和跨语言预训练模型的优化方法。相关研究进一步扩展了数据集的应用范围，例如在低资源语言处理和教育资源自动分类领域取得了显著成果。这些工作不仅验证了数据集的可靠性，也为后续研究提供了新的方向。

数据集最近研究