fw2_embeddings
收藏Hugging Face2025-08-06 更新2025-08-07 收录
下载链接:
https://huggingface.co/datasets/JQL-AI/fw2_embeddings
下载链接
链接失效反馈官方服务:
资源简介:
FineWeb2-embeddings数据集是FineWeb2数据集的扩展,包含了使用Snowflake's Arctic-embed-m-v2.0模型对36种语言进行文档级别嵌入的结果。这些嵌入对于文档聚类、过滤和多语言研究等任务非常有用。
创建时间:
2025-07-25
原始信息汇总
FineWeb2-embeddings 数据集概述
数据集摘要
- FineWeb2-embeddings是FineWeb2数据集的扩展版本,包含36种语言的文档级Snowflakes Arctic-embed-m-v2.0嵌入。
- 嵌入使用CLS token生成,适用于文档聚类、过滤等任务。
- 嵌入计算作为JQL: Judging Quality across Languages项目的一部分。
语言与子集
- 包含36种语言,每种语言分为原始子集和移除子集(removed)。
- 主要语言包括:德语、法语、西班牙语、意大利语、葡萄牙语等。
- 文档数量从数百万到数亿不等,磁盘大小从GB级别到TB级别。
使用方式
- 使用Python加载数据集示例:
python
import h5py
import pandas as pd
加载HDF5文件中的嵌入和文档ID
with h5py.File(file_path, "r") as f: embeddings = f["train/embeddings"][:] document_ids = f["train/document_id"][:]
数据来源
- 数据源自2013-2024年的网页内容。
- 可能包含个人身份信息(PII),可通过FineWeb2 PII移除/退出表单申请移除。
使用注意事项
- 社会影响、潜在偏差和已知限制请参考FineWeb2文档。
引用信息
bibtex @article{ali2025judging, title = {Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models}, author = {Mehdi Ali, et al.}, year = {2025}, journal = {arXiv preprint arXiv:2505:22232} }
搜集汇总
数据集介绍

构建方式
FineWeb2-embeddings数据集是基于FineWeb2数据集扩展而来,通过Snowflake的Arctic-embed-m-v2.0模型为36种语言的文档生成了文档级嵌入。该嵌入模型采用CLS令牌对每个文档进行嵌入处理,序列长度限制为8192个令牌。数据集的构建旨在支持多语言研究,特别是文档聚类和过滤等任务。构建过程中还涉及了JQL项目,旨在评估跨语言的数据质量,为后续高质量子集的生成奠定基础。
特点
FineWeb2-embeddings数据集覆盖了36种语言,每种语言均包含原始文档及其嵌入表示,数据规模庞大,部分语言的数据量超过1TB。数据集中的文档嵌入具有高维度特征,适用于复杂的多语言任务。此外,数据集还提供了详细的文档ID和嵌入向量,便于用户直接应用于下游任务。其多语言特性使其成为跨语言研究和应用的理想选择。
使用方法
用户可以通过Python中的h5py库加载数据集,结合pandas进行数据处理。具体步骤包括读取HDF5文件,提取嵌入向量和文档ID,并将其转换为DataFrame格式以便进一步分析。数据集适用于文档聚类、信息检索和多语言模型训练等任务。使用前需注意数据集中可能包含的个人身份信息,并遵循相关的数据使用规范。
背景与挑战
背景概述
FineWeb2-embeddings数据集作为FineWeb2的扩展版本,由HuggingFace团队联合多国研究人员于2024年推出,旨在解决多语言文本表示的核心问题。该数据集采用Snowflake Arctic-embed-m-v2.0模型对36种语言的文档级文本生成嵌入向量,覆盖从阿尔巴尼亚语到乌克兰语等欧洲主要语种及部分小众语言。其创新性体现在通过CLS令牌实现长文本(最长8192个标记)的语义编码,为跨语言文档聚类、质量过滤等任务提供标准化表征基础。相关研究成果已发表于arXiv预印本平台,标志着多语言预训练数据质量评估领域的重大进展。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,多语言嵌入需平衡不同语种间表征一致性,而低资源语言如马耳他语的数据稀疏性导致嵌入质量不稳定;在构建过程中,处理原始网络文本时面临序列截断与语义完整性间的矛盾,且需在1TB级数据规模下保持嵌入计算效率。此外,原始数据包含的PII信息虽经匿名化处理,仍存在隐私合规风险,需持续优化数据清洗流程。
常用场景
经典使用场景
在自然语言处理领域,fw2_embeddings数据集凭借其多语言文档级嵌入特性,成为跨语言文本表示研究的基准工具。该数据集通过Snowflake Arctic-embed-m-v2.0模型生成的嵌入向量,为36种语言提供了统一的语义空间映射,特别适用于对比分析不同语言文本的语义相似性。研究者常利用其CLS令牌生成的文档表征,开展跨语言的文档聚类实验,探索语言无关的文本特征表示方法。
解决学术问题
该数据集有效解决了多语言预训练数据质量评估的核心难题。通过提供标准化嵌入,研究者能够量化分析不同语言文档的语义密度与分布特征,为构建平衡的多语言语料库提供数据支撑。其标注方案突破了传统单语言质量评估的局限,使得基于嵌入相似度的跨语言数据过滤成为可能,显著提升了低资源语言在预训练中的表征能力。
衍生相关工作
基于该数据集衍生的经典工作包括JQL多语言质量评估框架,该框架重新定义了跨语言预训练数据的筛选标准。后续研究进一步提出了基于嵌入聚类的多语言课程学习策略,显著提升了小语种模型的收敛效率。近期发表的《Cross-lingual Embedding Alignment for Low-resource Languages》论文,利用该数据集验证了嵌入空间对齐技术的普适性,为语言迁移学习提供了新的方法论。
以上内容由遇见数据集搜集并总结生成



