eti-embedding-training-data-2048

Hugging Face2026-02-16 更新2026-02-17 收录

下载链接：

https://huggingface.co/datasets/thivy/eti-embedding-training-data-2048

下载链接

链接失效反馈

官方服务：

资源简介：

ETI Embedding 训练数据集（2048 tokens）包含78,888个挪威语锚点-正例对，专为健康相关内容训练嵌入模型而设计。每个对由一个问题（锚点）和其相关段落（正例）组成。数据来源于挪威公共健康网站（如helsenorge.no、NAV、Statped等），经过语义分块（2048 tokens限制）和问题生成处理，使用`SemanticSplitterNodeParser`和`google/embeddinggemma-300m`嵌入模型。适用于挪威语健康信息检索的嵌入模型微调、双编码器训练（使用对比损失目标）以及RAG系统构建。数据集采用CC-BY-4.0许可，内容来自挪威公共部门网站。

创建时间：

2026-02-14

搜集汇总

数据集介绍

构建方式

在挪威语健康信息检索领域，构建高质量的训练数据对于提升嵌入模型的语义理解能力至关重要。该数据集通过系统化的流程生成，首先从挪威公共健康机构如helsenorge.no、NAV等权威网站获取原始文档，确保内容的专业性与可靠性。随后采用LlamaIndex的语义分割器，以2048个令牌为上限对文档进行智能分块，并借助google/embeddinggemma-300m嵌入模型优化语义边界。每个文本块经由大型语言模型生成多个自然语言问题，形成锚点-正例对，其中锚点为模拟真实用户查询的问题，正例则为对应的原文段落，从而构建出78,888对训练样本。

特点

该数据集专注于挪威语健康领域，具有鲜明的专业性与实用性特征。其核心在于锚点-正例对的结构设计，锚点模拟真实用户咨询场景中的自然语言问题，正例则提供权威的健康知识段落，有效捕捉了查询与文档间的语义关联。数据规模达到近八万对，覆盖广泛的健康主题，为模型训练提供了充足的多样性。同时，数据源自挪威公共部门，确保了内容的准确性与时效性，特别适用于训练针对健康信息的检索增强生成系统或对比学习模型，以提升挪威语嵌入模型在专业领域的表现。

使用方法

该数据集主要用于微调挪威语健康领域的嵌入模型，以增强语义检索能力。使用者可通过Hugging Face的datasets库直接加载训练集，结合sentence-transformers框架实施训练。典型的应用场景包括采用对比损失函数训练双编码器，优化锚点与正例之间的语义相似度，从而构建高效的检索增强生成系统。数据集的格式清晰，锚点与正例均以字符串形式存储，便于直接集成到现有训练流程中。此外，基于该数据集衍生的三元组版本还可用于挖掘困难负例，进一步强化模型区分相关与不相关信息的能力。

背景与挑战

背景概述

随着自然语言处理技术在特定语言与垂直领域的深化应用，挪威语健康信息检索的需求日益凸显。在此背景下，数据集“eti-embedding-training-data-2048”应运而生，旨在为挪威语健康领域的嵌入模型训练提供高质量语料。该数据集由研究团队或机构基于挪威公共健康内容构建，核心研究问题聚焦于如何通过对比学习优化挪威语健康文本的语义表示，以提升检索增强生成系统的性能。其创建标志着低资源语言在专业领域的语义建模取得了重要进展，为后续挪威语健康信息系统的开发奠定了数据基础。

当前挑战

该数据集致力于解决挪威语健康领域文本的语义相似度计算与高效检索问题，其核心挑战在于如何精准捕捉专业医学术语与日常健康咨询之间的语义关联，并克服低资源语言在高质量标注数据稀缺方面的固有困难。在构建过程中，挑战具体体现为：从异构的公共健康文档中进行语义分块时，需在2048令牌的限制下保持文本的连贯性与信息完整性；利用大语言模型自动生成问题时，必须确保生成的问题自然、多样且与原文高度相关，以构建可靠的锚点-正例对。这些挑战对数据集的语义一致性与实用性提出了较高要求。

常用场景

经典使用场景

在挪威语健康信息检索领域，该数据集通过提供大量锚点-正例对，专为训练挪威语嵌入模型而设计。其经典使用场景聚焦于微调双编码器模型，采用对比损失目标优化语义表示，以精准捕捉健康相关查询与文档之间的语义关联。这种训练范式能够显著提升模型在挪威语健康内容上的检索性能，为后续的检索增强生成系统奠定坚实基础。

衍生相关工作

围绕该数据集已衍生出多项经典工作，其中最直接的是其扩展版本——包含通过困难负样本挖掘技术构建的三十余万三元组数据集，进一步增强了模型训练的区分能力。同时，基于此数据集微调得到的挪威语健康领域专用嵌入模型，已成为该领域的重要基线模型。这些衍生工作共同构成了一个从数据构建到模型训练与评估的完整研究与应用生态。

数据集最近研究