fw2_embeddings

Hugging Face2025-08-06 更新2025-08-07 收录

下载链接：

https://huggingface.co/datasets/JQL-AI/fw2_embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb2-embeddings数据集是FineWeb2数据集的扩展，包含了使用Snowflake's Arctic-embed-m-v2.0模型对36种语言进行文档级别嵌入的结果。这些嵌入对于文档聚类、过滤和多语言研究等任务非常有用。

创建时间：

2025-07-25

原始信息汇总

FineWeb2-embeddings 数据集概述

数据集摘要

FineWeb2-embeddings是FineWeb2数据集的扩展版本，包含36种语言的文档级Snowflakes Arctic-embed-m-v2.0嵌入。
嵌入使用CLS token生成，适用于文档聚类、过滤等任务。
嵌入计算作为JQL: Judging Quality across Languages项目的一部分。

语言与子集

包含36种语言，每种语言分为原始子集和移除子集（removed）。
主要语言包括：德语、法语、西班牙语、意大利语、葡萄牙语等。
文档数量从数百万到数亿不等，磁盘大小从GB级别到TB级别。

使用方式

使用Python加载数据集示例： python import h5py import pandas as pd
加载HDF5文件中的嵌入和文档ID
with h5py.File(file_path, "r") as f: embeddings = f["train/embeddings"][:] document_ids = f["train/document_id"][:]

数据来源

数据源自2013-2024年的网页内容。
可能包含个人身份信息（PII），可通过FineWeb2 PII移除/退出表单申请移除。

使用注意事项

社会影响、潜在偏差和已知限制请参考FineWeb2文档。

引用信息

bibtex @article{ali2025judging, title = {Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models}, author = {Mehdi Ali, et al.}, year = {2025}, journal = {arXiv preprint arXiv:2505:22232} }

搜集汇总

数据集介绍

构建方式

FineWeb2-embeddings数据集是基于FineWeb2数据集扩展而来，通过Snowflake的Arctic-embed-m-v2.0模型为36种语言的文档生成了文档级嵌入。该嵌入模型采用CLS令牌对每个文档进行嵌入处理，序列长度限制为8192个令牌。数据集的构建旨在支持多语言研究，特别是文档聚类和过滤等任务。构建过程中还涉及了JQL项目，旨在评估跨语言的数据质量，为后续高质量子集的生成奠定基础。

特点

FineWeb2-embeddings数据集覆盖了36种语言，每种语言均包含原始文档及其嵌入表示，数据规模庞大，部分语言的数据量超过1TB。数据集中的文档嵌入具有高维度特征，适用于复杂的多语言任务。此外，数据集还提供了详细的文档ID和嵌入向量，便于用户直接应用于下游任务。其多语言特性使其成为跨语言研究和应用的理想选择。

使用方法

用户可以通过Python中的h5py库加载数据集，结合pandas进行数据处理。具体步骤包括读取HDF5文件，提取嵌入向量和文档ID，并将其转换为DataFrame格式以便进一步分析。数据集适用于文档聚类、信息检索和多语言模型训练等任务。使用前需注意数据集中可能包含的个人身份信息，并遵循相关的数据使用规范。

背景与挑战

背景概述

FineWeb2-embeddings数据集作为FineWeb2的扩展版本，由HuggingFace团队联合多国研究人员于2024年推出，旨在解决多语言文本表示的核心问题。该数据集采用Snowflake Arctic-embed-m-v2.0模型对36种语言的文档级文本生成嵌入向量，覆盖从阿尔巴尼亚语到乌克兰语等欧洲主要语种及部分小众语言。其创新性体现在通过CLS令牌实现长文本（最长8192个标记）的语义编码，为跨语言文档聚类、质量过滤等任务提供标准化表征基础。相关研究成果已发表于arXiv预印本平台，标志着多语言预训练数据质量评估领域的重大进展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，多语言嵌入需平衡不同语种间表征一致性，而低资源语言如马耳他语的数据稀疏性导致嵌入质量不稳定；在构建过程中，处理原始网络文本时面临序列截断与语义完整性间的矛盾，且需在1TB级数据规模下保持嵌入计算效率。此外，原始数据包含的PII信息虽经匿名化处理，仍存在隐私合规风险，需持续优化数据清洗流程。

常用场景

经典使用场景

在自然语言处理领域，fw2_embeddings数据集凭借其多语言文档级嵌入特性，成为跨语言文本表示研究的基准工具。该数据集通过Snowflake Arctic-embed-m-v2.0模型生成的嵌入向量，为36种语言提供了统一的语义空间映射，特别适用于对比分析不同语言文本的语义相似性。研究者常利用其CLS令牌生成的文档表征，开展跨语言的文档聚类实验，探索语言无关的文本特征表示方法。

解决学术问题

该数据集有效解决了多语言预训练数据质量评估的核心难题。通过提供标准化嵌入，研究者能够量化分析不同语言文档的语义密度与分布特征，为构建平衡的多语言语料库提供数据支撑。其标注方案突破了传统单语言质量评估的局限，使得基于嵌入相似度的跨语言数据过滤成为可能，显著提升了低资源语言在预训练中的表征能力。

衍生相关工作

基于该数据集衍生的经典工作包括JQL多语言质量评估框架，该框架重新定义了跨语言预训练数据的筛选标准。后续研究进一步提出了基于嵌入聚类的多语言课程学习策略，显著提升了小语种模型的收敛效率。近期发表的《Cross-lingual Embedding Alignment for Low-resource Languages》论文，利用该数据集验证了嵌入空间对齐技术的普适性，为语言迁移学习提供了新的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集