embed-nemotron-dataset-v1

Name: embed-nemotron-dataset-v1
Creator: NVIDIA
Published: 2026-01-06 19:21:03
License: 暂无描述

Hugging Face2026-01-06 更新2026-01-07 收录

下载链接：

https://huggingface.co/datasets/nvidia/embed-nemotron-dataset-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个高质量微调数据集的汇编，旨在支持NVIDIA发布的llama-embed-nemotron-8b模型。它包含了从公开数据集（如MIRACL、HotpotQA、MS MARCO等）中提取的非合成数据，以及专门生成的合成数据，以增强任务类型的多样性。数据集经过复杂的硬负样本挖掘过程处理，以最大化学习信号。该数据集适用于检索、重排序、语义相似性和分类等多种用途，并支持多语言和跨语言文本检索。

提供机构：

NVIDIA

创建时间：

2025-12-23

原始信息汇总

Embed Nemotron Dataset V1 数据集概述

数据集基本信息

数据集名称: Embed Nemotron Dataset V1
所有者: NVIDIA Corporation
创建日期: 2025年10月21日
最新版本日期: 2026年01月05日
数据集地址: https://huggingface.co/datasets/nvidia/embed-nemotron-dataset-v1
关联模型: llama-embed-nemotron-8b (https://huggingface.co/nvidia/llama-embed-nemotron-8b)
技术报告: Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
数据准备脚本: https://github.com/NVIDIA-NeMo/Automodel/blob/main/examples/biencoder/llama_embed_nemotron_8b/data_preparation.py
用途限制: 仅供研究和开发使用。

数据集描述

该数据集是用于支持 NVIDIA 发布的 llama-embed-nemotron-8b 模型的高质量微调数据集的汇编。它是训练该模型所用微调数据的一个精选子集，经过精心策划，旨在确保在各种任务上的鲁棒性和高性能。数据集包含来自已建立的公共数据集（如 MIRACL、HotpotQA、MS MARCO 等）的非合成数据，以及为增强任务类型多样性（例如分类）而专门生成的合成数据。每个数据集都经过了复杂的困难负样本挖掘过程处理，以最大化学习信号。

数据集组成与量化

子数据集总数: 14
总查询样本数: 3,662,695
总文档样本数: 9,118,599
总数据大小: 2.3 GB (2,314.4 MB)

子数据集详情

数据集名称	任务类型	样本数 (查询/文档)	大小 (MB)	许可协议	数据来源
EmotionClassification	分类	13,039 / 6	0.2	未指定	公开数据
FEVER	检索	140,085 / 235,948	118.2	CC BY-SA 4.0	公开数据
GooAQ	检索	100,000 / 86,393	5.5	未指定	公开数据
HotpotQA	检索	170,000 / 754,756	21.4	未指定	公开数据
MAmmoTH2	检索	317,180 / 317,205	27.8	未指定	公开数据
MIRACL	检索	79,648 / 2,571,803	1,480.0	CC BY-SA 4.0	公开数据
MSMARCO	检索	532,751 / 3,672,883	80.6	未指定	公开数据
NFCorpus	检索	3,685 / 3,573	0.2	未指定	公开数据
NaturalQuestions	检索	100,231 / 75,215	5.1	未指定	公开数据
PAQ	检索	1,000,000 / 932,307	108.0	未指定	公开数据
SQuAD	检索	87,599 / 18,891	3.4	未指定	公开数据
SciFact	检索	919 / 3,255	0.1	未指定	公开数据
SyntheticClassificationData	分类	1,044,212 / 382,227	440.1	CC BY 4.0	合成数据
TriviaQA	检索	73,346 / 64,137	3.8	未指定	公开数据

标签说明:

公开数据: 数据来源于其他公开数据集。
合成数据: 数据为合成生成。SyntheticClassificationData 数据集使用以下模型生成：meta-llama/Llama-3.3-70B-Instruct、meta-llama/Llama-4-Scout-17B-16E-Instruct 和 meta-llama/Llama-4-Maverick-17B-128E-Instruct。

许可与使用条款

总体条款: 本数据集中每个数据集的使用受其附带许可协议约束。
特定许可:
- FEVER 和 MIRACL 数据集受 Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) 约束。
- SyntheticClassificationData 数据集受 Creative Commons Attribution 4.0 International License (CC BY 4.0) 约束。
合成数据附加信息: 若使用 SyntheticClassificationData 数据集创建、训练、微调或以其他方式改进 AI 模型并分发或提供该模型，则该 AI 模型可能须遵守 Llama 3.3 Community License Agreement 和 Llama 4 Community License Agreement 中的再分发和使用要求。

数据特征

数据收集方法: 混合（合成、自动、人工）
标注方法: 混合（合成、自动、人工）

数据格式

每个给定的数据集包含两部分：

查询集 (Queries):
- question_id: 查询ID
- question: 查询文本（如果未直接重新分发文本，则为查询ID）
- corpus_id: 数据集名称
- pos_doc: 给定查询的正文档列表
- neg_doc: 给定查询的负文档列表
语料库 (Corpus):
- id: 与查询集中 pos_doc 和 neg_doc 列表对应的文档ID
- text (可选): 如果文本被直接重新分发，则为文档文本

预期用途

该数据集旨在供社区用于持续改进开源模型。数据可自由用于训练和评估。

使用框架

数据已准备就绪，可与 NeMo AutoModel 框架一起使用。要准备数据并开始训练模型，请遵循此处提供的步骤。

引用

@misc{babakhin2025llamaembednemotron8buniversaltextembedding, title={Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks}, author={Yauhen Babakhin and Radek Osmulski and Ronay Ak and Gabriel Moreira and Mengyao Xu and Benedikt Schifferer and Bo Liu and Even Oldridge}, year={2025}, eprint={2511.07025}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.07025}, }

伦理考量

NVIDIA 认为 可信赖的 AI 是一项共同责任，并已制定政策和实践以支持广泛的 AI 应用开发。开发者在根据服务条款下载或使用本数据集时，应与其内部模型团队合作，确保该数据集满足相关行业和用例的要求，并解决不可预见的产品误用问题。

搜集汇总

数据集介绍

构建方式

在文本嵌入模型研究领域，embed-nemotron-dataset-v1的构建体现了对数据多样性与质量的前沿追求。该数据集精心整合了来自多个权威公开数据集的数据，如MIRACL、HotpotQA和MS MARCO等，并融入了通过大型语言模型生成的合成数据，以覆盖分类等多样化任务。构建过程中，对每个子数据集均实施了复杂的困难负样本挖掘技术，旨在最大化模型训练的学习信号，从而确保数据在语义表示学习中的高效性与鲁棒性。

特点

该数据集的核心特征在于其高度的异构性与任务覆盖广度。它汇集了总计14个子数据集，涵盖检索与分类两大核心任务，包含超过366万条查询和912万篇文档，总规模达2.3GB。数据来源兼具公开真实数据与模型生成的合成数据，这种混合策略有效增强了模型在不同领域和语言场景下的泛化能力。数据集的结构化设计清晰，每个子集均明确区分查询与语料库，并附带详细的元数据，为深入研究提供了坚实的基础。

使用方法

本数据集主要服务于文本嵌入模型的训练与评估，旨在支持社区对开放模型的持续改进。使用者可通过NVIDIA提供的NeMo AutoModel框架加载并处理数据，遵循其配套的代码库中详述的步骤进行模型训练。对于部分仅提供标识符的数据，需运行特定的Python数据处理脚本以获取原始文本。研究人员可借此数据集复现或优化如llama-embed-nemotron-8b等先进嵌入模型的性能，推动检索增强生成及相关跨语言任务的技术发展。

背景与挑战

背景概述

在自然语言处理领域，文本嵌入模型作为信息检索与语义理解的核心组件，其性能直接关系到检索增强生成等前沿应用的效能。embed-nemotron-dataset-v1数据集由NVIDIA公司于2025年10月21日发布，旨在支持其开发的llama-embed-nemotron-8b模型的微调工作。该数据集精心整合了包括MIRACL、HotpotQA、MSMARCO在内的多个高质量公开数据集，并辅以合成生成的分类数据，通过硬负例挖掘技术优化学习信号。其核心研究问题聚焦于构建一个能够支撑多语言、跨语言文本检索任务的通用嵌入模型训练资源，推动检索、重排序、语义相似度计算及分类等任务的性能边界，对提升大语言模型在复杂语义场景下的理解能力具有显著影响力。

当前挑战

该数据集致力于解决文本嵌入模型在多任务与多语言场景下的泛化能力挑战，其核心问题在于如何使单一模型在检索、分类、语义相似度等异构任务上均达到最优性能。构建过程中的挑战主要体现在数据整合的复杂性上：需要从十余个来源各异的公开数据集中进行筛选与对齐，确保数据格式与质量的一致性；同时，合成数据的生成需借助大型语言模型，涉及版权许可与生成内容的可控性考量；此外，硬负例挖掘算法的设计亦需平衡计算效率与样本难度，以最大化训练信号的区分度。

常用场景

经典使用场景

在自然语言处理领域，embed-nemotron-dataset-v1数据集作为高质量微调数据的集合，其经典使用场景聚焦于文本嵌入模型的训练与评估。该数据集通过整合多种公开数据集与合成数据，为检索、重排序、语义相似度计算及分类任务提供了丰富的训练样本。特别地，其精心设计的硬负样本挖掘机制显著增强了模型在复杂语义匹配场景下的判别能力，使得研究人员能够基于此数据集构建出在多语言和跨语言任务中表现卓越的文本嵌入模型，为后续的检索增强生成系统奠定坚实基础。

衍生相关工作

围绕该数据集衍生的经典工作主要体现在文本嵌入模型的优化与扩展研究上。例如，基于其构建的llama-embed-nemotron-8b模型在MTEB多语言排行榜上取得了领先性能，激发了后续关于嵌入模型高效微调与蒸馏的一系列探索。同时，该数据集的合成数据生成方法为分类任务的增强学习提供了新思路，促使学术界进一步研究合成数据在提升模型多样性中的作用。这些工作共同推动了嵌入技术在语义理解与跨语言应用中的前沿进展。

数据集最近研究