hplt2_embeddings

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/JQL-AI/hplt2_embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

HPLT2-embeddings是基于HPLT2数据集的扩展版本，包含了35种语言的文档级别Snowflake's Arctic-embed-m-v2.0嵌入。这些嵌入可用于文档聚类、过滤等多种多语言研究任务。

创建时间：

2025-07-28

原始信息汇总

HPLT2-embeddings 数据集概述

数据集基本信息

任务类别: 特征提取
数据集名称: HPLT2-embeddings
数据规模: 大于1TB
支持语言:
- 阿尔巴尼亚语(sq)、保加利亚语(bg)、加泰罗尼亚语(ca)、捷克语(cs)、丹麦语(da)
- 德语(de)、西班牙语(es)、爱沙尼亚语(et)、希腊语(el)、巴斯克语(eu)
- 芬兰语(fi)、法语(fr)、加利西亚语(gl)、爱尔兰语(ga)、克罗地亚语(hr)
- 匈牙利语(hu)、亚美尼亚语(hy)、冰岛语(is)、意大利语(it)、拉脱维亚语(lv)
- 立陶宛语(lt)、马其顿语(mk)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)
- 罗马尼亚语(ro)、斯洛文尼亚语(sl)、斯洛伐克语(sk)、塞尔维亚语(sr)、土耳其语(tr)
- 瑞典语(sv)、挪威书面语(nb)、挪威新挪威语(nn)

数据集配置

包含35种语言配置，每种语言对应独立的训练数据文件路径，例如：

als_Latn、bul_Cyrl、cat_Latn、ces_Latn、dan_Latn
deu_Latn、ekk_Latn、ell_Grek、eus_Latn、fin_Latn
fra_Latn、gle_Latn、glg_Latn、hrv_Latn、hun_Latn
hye_Armn、isl_Latn、ita_Latn、lit_Latn、lvs_Latn
mkd_Cyrl、nld_Latn、nno_Latn、nob_Latn、pol_Latn
por_Latn、ron_Latn、slk_Latn、slv_Latn、spa_Latn
srp_Cyrl、swe_Latn、tur_Latn、ukr_Cyrl

数据集特点

基于HPLT2数据集扩展，添加了文档级Snowflake Arctic-embed-m-v2.0嵌入
支持35种语言
适用于文档聚类、过滤等任务
嵌入维度为8192个token限制，使用CLS token生成文档嵌入

数据来源

源自HPLT2数据集
包含2013-2024年收集的网络内容
可能包含个人身份信息(PII)

使用方式

可通过Python的h5py和pandas库加载数据，示例代码： python import h5py import pandas as pd

加载HDF5文件

with h5py.File("000_001_00000.h5", "r") as f: embeddings = f["train/embeddings"][:] document_ids = f["train/document_id"][:]

转换为DataFrame

df = pd.DataFrame(embeddings) df.insert(0, "document_id", document_ids)

引用信息

bibtex @article{ali2025judging, title = {Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models}, author = {Mehdi Ali et al.}, year = {2025}, journal = {arXiv preprint arXiv:2505:22232} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言文档表示学习对跨语言理解至关重要。HPLT2-embeddings数据集基于HPLT2语料库构建，采用Snowflake的Arctic-embed-m-v2.0模型为35种语言的文档生成嵌入向量。每个文档通过模型处理，提取CLS令牌作为文档级表示，序列长度限制在8192个令牌以内，确保嵌入质量与一致性。该构建过程是JQL项目的重要组成部分，旨在为多语言研究提供高质量的预处理数据基础。

特点

该数据集涵盖35种语言，包括阿尔巴尼亚语、保加利亚语、加泰罗尼亚语等多样语种，支持拉丁、西里尔、希腊和亚美尼亚等多种文字系统。嵌入向量维度统一，适用于文档聚类、过滤及多语言对比分析。数据集规模超过1TB，文档来源时间跨度从2013年至2024年，反映了现代网络内容的多样性，但需注意可能包含未完全匿名的个人信息，使用时需遵循伦理准则。

使用方法

研究人员可通过HDF5格式文件加载嵌入数据，使用Python的h5py库读取文档标识符和对应嵌入向量。文档标识符以字节形式存储，需解码为UTF-8字符串以便处理。嵌入数据可转换为Pandas DataFrame进行进一步分析，如相似度计算或聚类实验。该数据集适用于多语言检索、质量评估及预训练数据筛选等任务，具体应用时可参考相关论文中的实验设置与评估指标。

背景与挑战

背景概述

HPLT2-embeddings数据集作为HPLT2项目的重要扩展，由国际研究团队于2025年基于Snowflake的Arctic-embed-m-v2.0模型构建而成。该数据集专注于多语言文档级特征提取领域，覆盖阿尔巴尼亚语到乌克兰语等35种语言，旨在解决跨语言语义表示的核心研究问题。通过将原始网页内容转化为标准化向量表示，该数据集显著提升了多语言文档聚类、质量过滤等任务的性能基准，为构建高质量多语言预训练数据子集奠定了理论基础与实践基础。

当前挑战

在解决多语言文档语义表示问题时，该数据集需克服低资源语言表征稀疏性与语言间语义对齐偏差的双重挑战。构建过程中面临网页原始数据质量参差不齐的筛选难题，包括非规范化文本处理与隐私信息过滤等技术瓶颈。文档长度与嵌入模型8192标记限制的协调要求精密的分块策略，而35种语言脚本系统的异构性更增加了向量空间统一表征的复杂度，这些因素共同构成了数据集构建的核心技术障碍。

常用场景

经典使用场景

在多语言自然语言处理研究中，HPLT2-embeddings数据集凭借其覆盖35种语言的文档级嵌入特征，为跨语言文本表示学习提供了重要基础。该数据集通过Snowflake Arctic-embed-m-v2.0模型生成的8192令牌序列长度嵌入向量，能够有效捕捉不同语言文档的深层语义信息，特别适用于大规模多语言语料的分析与处理。研究人员利用这些高质量的嵌入表示，可以进行跨语言的文档相似度计算、语义检索以及语言间的知识迁移，为构建统一的多语言语义空间提供关键技术支持。

衍生相关工作

基于HPLT2-embeddings，研究者开发了JQL（Judging Quality across Languages）项目，专注于多语言预训练数据过滤。该工作提出了基于语言模型的自动化质量评判框架，能够高效识别和筛选高质量多语言文本。后续研究利用这些嵌入特征推动了多语言文档聚类算法的创新，开发出更有效的跨语言语义索引方法。嵌入数据还促进了多语言对比学习技术的发展，使得模型能够更好地捕捉语言间的语义对应关系，为构建更强大的多语言预训练模型提供了重要基础。

数据集最近研究