hplt2_edu_scores
收藏HPLT2-Edu-scores 数据集概述
数据集基本信息
- 任务类别: 文本排序 (text-ranking)
- 数据集名称: HPLT2-JQL-Education
- 数据规模: 大于1TB (n>1T)
- 支持语言: 35种欧洲语言,包括阿尔巴尼亚语、保加利亚语、加泰罗尼亚语、捷克语、丹麦语、德语、西班牙语、爱沙尼亚语、希腊语、巴斯克语、芬兰语、法语、加利西亚语、爱尔兰语、克罗地亚语、匈牙利语、亚美尼亚语、冰岛语、意大利语、拉脱维亚语、立陶宛语、马其顿语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛文尼亚语、斯洛伐克语、塞尔维亚语、土耳其语、瑞典语、挪威语等
数据集特点
- 数据来源: 基于HPLT2数据集的语言子集
- 标注方式: 模型标注
- 主要用途: 通过模型标注实现高质量训练结果,同时避免过度减少数据量
- 示例效果: 在西班牙语案例中,应用0.6阈值保留了比FW2训练集多9%以上的token,同时质量更高
数据集结构
数据字段
score_Gemma_Snowflake: Gemma-based Snowflake分类器获得的质量分数score_Llama_Snowflake: Llama-based Snowflake分类器获得的质量分数score_Mistral_Snowflake: Mistral-based Snowflake分类器获得的质量分数source_filename: 原始文件的来源文件名
数据实例
json { "id": "0", "file_path": "/leonardo_scratch/large/userexternal/mfromm00/data/raw_data/HPLT2/output/embeddings/als_Latn/als_Latn/000_000_00000.jsonl.h5", "document_id": "29d82196d55803ab9c792e45b59919bf_0", "source_filename": "als_Latn/als_Latn/000_000_00000.jsonl.h5", "score_Gemma_Snowflake": 0.330078125, "score_Llama_Snowflake": -0.34765625, "score_Mistral_Snowflake": -0.390625 }
技术背景
- 嵌入模型: 使用Snowflakes Arctic-embed-m-v2.0嵌入训练深度学习分类器
- 训练模型: 使用20亿参数的密集解码器模型,遵循LLaMA架构
- 相关资源: 发布完整HPLT2数据集的通用嵌入向量HPLT2-embeddings
数据来源与注意事项
- 数据时间范围: 2012-2023年收集的网络内容
- 潜在问题: 可能包含个人身份信息(PII),尽管在处理过程中已尝试匿名化电子邮件地址和公共IP地址
- 使用建议: 关于社会影响、潜在偏见和已知限制,请参考HPLT2文档
引用信息
bibtex @article{ali2025judging, title = {Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models}, author = {Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, Felix Stollenwerk, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting}, year = {2025}, journal = {arXiv preprint arXiv:2505:22232} }




