five

embed-nemotron-dataset-v1

收藏
Hugging Face2026-01-06 更新2026-01-07 收录
下载链接:
https://huggingface.co/datasets/nvidia/embed-nemotron-dataset-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个高质量微调数据集的汇编,旨在支持NVIDIA发布的llama-embed-nemotron-8b模型。它包含了从公开数据集(如MIRACL、HotpotQA、MS MARCO等)中提取的非合成数据,以及专门生成的合成数据,以增强任务类型的多样性。数据集经过复杂的硬负样本挖掘过程处理,以最大化学习信号。该数据集适用于检索、重排序、语义相似性和分类等多种用途,并支持多语言和跨语言文本检索。
提供机构:
NVIDIA
创建时间:
2025-12-23
原始信息汇总

Embed Nemotron Dataset V1 数据集概述

数据集基本信息

  • 数据集名称: Embed Nemotron Dataset V1
  • 所有者: NVIDIA Corporation
  • 创建日期: 2025年10月21日
  • 最新版本日期: 2026年01月05日
  • 数据集地址: https://huggingface.co/datasets/nvidia/embed-nemotron-dataset-v1
  • 关联模型: llama-embed-nemotron-8b (https://huggingface.co/nvidia/llama-embed-nemotron-8b)
  • 技术报告: Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
  • 数据准备脚本: https://github.com/NVIDIA-NeMo/Automodel/blob/main/examples/biencoder/llama_embed_nemotron_8b/data_preparation.py
  • 用途限制: 仅供研究和开发使用。

数据集描述

该数据集是用于支持 NVIDIA 发布的 llama-embed-nemotron-8b 模型的高质量微调数据集的汇编。它是训练该模型所用微调数据的一个精选子集,经过精心策划,旨在确保在各种任务上的鲁棒性和高性能。数据集包含来自已建立的公共数据集(如 MIRACL、HotpotQA、MS MARCO 等)的非合成数据,以及为增强任务类型多样性(例如分类)而专门生成的合成数据。每个数据集都经过了复杂的困难负样本挖掘过程处理,以最大化学习信号。

数据集组成与量化

  • 子数据集总数: 14
  • 总查询样本数: 3,662,695
  • 总文档样本数: 9,118,599
  • 总数据大小: 2.3 GB (2,314.4 MB)

子数据集详情

数据集名称 任务类型 样本数 (查询/文档) 大小 (MB) 许可协议 数据来源
EmotionClassification 分类 13,039 / 6 0.2 未指定 公开数据
FEVER 检索 140,085 / 235,948 118.2 CC BY-SA 4.0 公开数据
GooAQ 检索 100,000 / 86,393 5.5 未指定 公开数据
HotpotQA 检索 170,000 / 754,756 21.4 未指定 公开数据
MAmmoTH2 检索 317,180 / 317,205 27.8 未指定 公开数据
MIRACL 检索 79,648 / 2,571,803 1,480.0 CC BY-SA 4.0 公开数据
MSMARCO 检索 532,751 / 3,672,883 80.6 未指定 公开数据
NFCorpus 检索 3,685 / 3,573 0.2 未指定 公开数据
NaturalQuestions 检索 100,231 / 75,215 5.1 未指定 公开数据
PAQ 检索 1,000,000 / 932,307 108.0 未指定 公开数据
SQuAD 检索 87,599 / 18,891 3.4 未指定 公开数据
SciFact 检索 919 / 3,255 0.1 未指定 公开数据
SyntheticClassificationData 分类 1,044,212 / 382,227 440.1 CC BY 4.0 合成数据
TriviaQA 检索 73,346 / 64,137 3.8 未指定 公开数据

标签说明:

  • 公开数据: 数据来源于其他公开数据集。
  • 合成数据: 数据为合成生成。SyntheticClassificationData 数据集使用以下模型生成:meta-llama/Llama-3.3-70B-Instructmeta-llama/Llama-4-Scout-17B-16E-Instructmeta-llama/Llama-4-Maverick-17B-128E-Instruct

许可与使用条款

数据特征

  • 数据收集方法: 混合(合成、自动、人工)
  • 标注方法: 混合(合成、自动、人工)

数据格式

每个给定的数据集包含两部分:

  1. 查询集 (Queries):
    • question_id: 查询ID
    • question: 查询文本(如果未直接重新分发文本,则为查询ID)
    • corpus_id: 数据集名称
    • pos_doc: 给定查询的正文档列表
    • neg_doc: 给定查询的负文档列表
  2. 语料库 (Corpus):
    • id: 与查询集中 pos_docneg_doc 列表对应的文档ID
    • text (可选): 如果文本被直接重新分发,则为文档文本

预期用途

该数据集旨在供社区用于持续改进开源模型。数据可自由用于训练和评估。

使用框架

数据已准备就绪,可与 NeMo AutoModel 框架一起使用。要准备数据并开始训练模型,请遵循 此处 提供的步骤。

引用

@misc{babakhin2025llamaembednemotron8buniversaltextembedding, title={Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks}, author={Yauhen Babakhin and Radek Osmulski and Ronay Ak and Gabriel Moreira and Mengyao Xu and Benedikt Schifferer and Bo Liu and Even Oldridge}, year={2025}, eprint={2511.07025}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.07025}, }

伦理考量

NVIDIA 认为 可信赖的 AI 是一项共同责任,并已制定政策和实践以支持广泛的 AI 应用开发。开发者在根据服务条款下载或使用本数据集时,应与其内部模型团队合作,确保该数据集满足相关行业和用例的要求,并解决不可预见的产品误用问题。

搜集汇总
数据集介绍
main_image_url
构建方式
在文本嵌入模型研究领域,embed-nemotron-dataset-v1的构建体现了对数据多样性与质量的前沿追求。该数据集精心整合了来自多个权威公开数据集的数据,如MIRACL、HotpotQA和MS MARCO等,并融入了通过大型语言模型生成的合成数据,以覆盖分类等多样化任务。构建过程中,对每个子数据集均实施了复杂的困难负样本挖掘技术,旨在最大化模型训练的学习信号,从而确保数据在语义表示学习中的高效性与鲁棒性。
特点
该数据集的核心特征在于其高度的异构性与任务覆盖广度。它汇集了总计14个子数据集,涵盖检索与分类两大核心任务,包含超过366万条查询和912万篇文档,总规模达2.3GB。数据来源兼具公开真实数据与模型生成的合成数据,这种混合策略有效增强了模型在不同领域和语言场景下的泛化能力。数据集的结构化设计清晰,每个子集均明确区分查询与语料库,并附带详细的元数据,为深入研究提供了坚实的基础。
使用方法
本数据集主要服务于文本嵌入模型的训练与评估,旨在支持社区对开放模型的持续改进。使用者可通过NVIDIA提供的NeMo AutoModel框架加载并处理数据,遵循其配套的代码库中详述的步骤进行模型训练。对于部分仅提供标识符的数据,需运行特定的Python数据处理脚本以获取原始文本。研究人员可借此数据集复现或优化如llama-embed-nemotron-8b等先进嵌入模型的性能,推动检索增强生成及相关跨语言任务的技术发展。
背景与挑战
背景概述
在自然语言处理领域,文本嵌入模型作为信息检索与语义理解的核心组件,其性能直接关系到检索增强生成等前沿应用的效能。embed-nemotron-dataset-v1数据集由NVIDIA公司于2025年10月21日发布,旨在支持其开发的llama-embed-nemotron-8b模型的微调工作。该数据集精心整合了包括MIRACL、HotpotQA、MSMARCO在内的多个高质量公开数据集,并辅以合成生成的分类数据,通过硬负例挖掘技术优化学习信号。其核心研究问题聚焦于构建一个能够支撑多语言、跨语言文本检索任务的通用嵌入模型训练资源,推动检索、重排序、语义相似度计算及分类等任务的性能边界,对提升大语言模型在复杂语义场景下的理解能力具有显著影响力。
当前挑战
该数据集致力于解决文本嵌入模型在多任务与多语言场景下的泛化能力挑战,其核心问题在于如何使单一模型在检索、分类、语义相似度等异构任务上均达到最优性能。构建过程中的挑战主要体现在数据整合的复杂性上:需要从十余个来源各异的公开数据集中进行筛选与对齐,确保数据格式与质量的一致性;同时,合成数据的生成需借助大型语言模型,涉及版权许可与生成内容的可控性考量;此外,硬负例挖掘算法的设计亦需平衡计算效率与样本难度,以最大化训练信号的区分度。
常用场景
经典使用场景
在自然语言处理领域,embed-nemotron-dataset-v1数据集作为高质量微调数据的集合,其经典使用场景聚焦于文本嵌入模型的训练与评估。该数据集通过整合多种公开数据集与合成数据,为检索、重排序、语义相似度计算及分类任务提供了丰富的训练样本。特别地,其精心设计的硬负样本挖掘机制显著增强了模型在复杂语义匹配场景下的判别能力,使得研究人员能够基于此数据集构建出在多语言和跨语言任务中表现卓越的文本嵌入模型,为后续的检索增强生成系统奠定坚实基础。
衍生相关工作
围绕该数据集衍生的经典工作主要体现在文本嵌入模型的优化与扩展研究上。例如,基于其构建的llama-embed-nemotron-8b模型在MTEB多语言排行榜上取得了领先性能,激发了后续关于嵌入模型高效微调与蒸馏的一系列探索。同时,该数据集的合成数据生成方法为分类任务的增强学习提供了新思路,促使学术界进一步研究合成数据在提升模型多样性中的作用。这些工作共同推动了嵌入技术在语义理解与跨语言应用中的前沿进展。
数据集最近研究
最新研究方向
在文本嵌入模型领域,embed-nemotron-dataset-v1作为支持llama-embed-nemotron-8b模型训练的高质量微调数据集,正推动着多语言检索与增强生成系统的前沿探索。该数据集融合了公开数据与合成数据,并经过硬负样本挖掘处理,其精心设计的结构为研究跨语言语义理解、密集检索效率以及检索增强生成系统的鲁棒性提供了关键支撑。当前研究热点聚焦于利用此类大规模、多任务数据集,优化嵌入模型在复杂检索场景下的泛化能力,特别是在低资源语言和跨领域知识融合方面的表现。这一进展不仅提升了多语言信息检索的基准性能,也为构建更可靠、高效的智能问答与知识发现系统奠定了数据基础,具有显著的学术与应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作