hplt3_edu_scores
收藏HPLT3-JQL-Education 数据集概述
数据集基本信息
- 数据集名称: HPLT3-JQL-Education (HPLT3-Edu-scores)
- 任务类别: 文本排序
- 数据规模: 大于1TB
- 语言覆盖: 36种语言,包括阿尔巴尼亚语、保加利亚语、加泰罗尼亚语、捷克语、丹麦语、德语、西班牙语、爱沙尼亚语、希腊语、巴斯克语、芬兰语、法语、加利西亚语、爱尔兰语、克罗地亚语、匈牙利语、亚美尼亚语、冰岛语、意大利语、拉脱维亚语、立陶宛语、马其顿语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛文尼亚语、斯洛伐克语、塞尔维亚语、土耳其语、瑞典语、书面挪威语、新挪威语等。
数据集来源与构建方法
- 基础数据源: 本数据集是HPLT3数据集的一个模型标注语言子集。
- 标注方法: 基于深度学习分类器分配的分数创建,该分类器使用Snowflakes Arctic-embed-m-v2.0嵌入来识别教育类样本。
- 模型验证: 所有训练消融实验均使用遵循LLaMA架构的20亿参数密集仅解码器模型进行。
- 扩展性: 该方法易于扩展到其他语言,未来版本可能考虑添加新语言。
- 相关发布: 原始HPLT3数据集各语言的全套通用嵌入向量已单独发布,可用于质量过滤之外的其他应用。
数据集结构
数据字段
每个数据条目包含:
score_Gemma_Snowflake: 基于Gemma的Snowflake分类器获得的质量分数score_Llama_Snowflake: 基于Llama的Snowflake分类器获得的质量分数score_Mistral_Snowflake: 基于Mistral的Snowflake分类器获得的质量分数document_ids: 原始HPLT3文档ID
数据实例
json { "document_ids": "a4f748036fe464fc123991d1d213f210", "score_Gemma_Snowflake": 1.2109375, "score_Llama_Snowflake": 0.0849609375, "score_Mistral_Snowflake": 0.36328125 }
数据来源与时间范围
- 数据起源: 源自HPLT3,包含2012年至2024年期间收集的网络内容。
- 内容说明: 由于HPLT3来源于广泛的互联网,尽管在处理过程中努力匿名化电子邮件地址和公共IP地址,但仍可能包含一些个人身份信息。
使用注意事项
- 关于社会影响、潜在偏见和已知限制的信息,请参阅HPLT3文档。
引用信息
如果在研究或应用中使用此数据集,请使用以下引用:
@article{ali2025judging, title = {Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models}, author = { Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, Felix Stollenwerk, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting }, year = {2025}, journal = {arXiv preprint arXiv:2505:22232} }
详细论文信息
- 论文标题: Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models
- 论文链接: https://arxiv.org/abs/2505.22232




