Retrieval-Synthetic-NVDocs-v1

Name: Retrieval-Synthetic-NVDocs-v1
Creator: NVIDIA
Published: 2026-03-07 07:17:44
License: 暂无描述

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/nvidia/Retrieval-Synthetic-NVDocs-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Retrieval-Synthetic-NVDocs-v1 是一个合成的检索数据集，旨在训练和评估嵌入模型及检索增强生成（RAG）系统。该数据集基于 NVIDIA 公开可用的内容，使用 NeMo Data Designer 框架生成，包含文档块与语义丰富的问答对，涵盖多种推理类型（事实性、关系性、程序性、推理性、时间性、因果性、视觉性）和查询类型（结构性、多跳、上下文相关）。每条记录包含提取的文档元素（如实体、关键概念、关系、技术术语、主题和见解），为检索和理解任务提供多样化的训练信号。数据集格式为 JSON，包含文档文本、分块信息、结构化部分、文档元素和生成的问答对等字段。数据集规模为 15,095 条记录（105,665 个查询），总存储量为 816MB。适用于信息检索和自然语言理解系统的研究，包括嵌入模型训练、检索系统评估、RAG 系统开发和问答模型微调等场景。数据集采用 CC BY 4.0 许可，允许商业和非商业使用。

提供机构：

NVIDIA

创建时间：

2026-03-07

原始信息汇总

数据集概述

基本信息

数据集名称: Retrieval-Synthetic-NVDocs-v1
所有者: NVIDIA Corporation
创建日期: 2026年1月22日
许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
语言: 英语
数据规模: 100K < n < 1M
总存储量: 816MB

数据集描述

Retrieval-Synthetic-NVDocs-v1 是一个用于训练和评估嵌入与检索增强生成系统的合成检索数据集，包含问题-答案监督信息。该数据集基于NVIDIA公开可用的内容，使用NVIDIA的开源框架NeMo Data Designer生成。数据集包含文档块以及与多种推理类型和查询类型配对的语义丰富的问题-答案对。每个记录还包含提取的文档元素。

任务类别

问答
文本检索
文本排序
文本分类

预期用途

本数据集适用于从事信息检索和自然语言理解系统研究的机器学习研究人员、AI工程师和开发者。主要用例包括：

训练和微调嵌入模型
评估检索系统
检索增强生成系统开发
问答系统训练
文档理解研究

数据集特征

数据收集方法: 混合（人工、自动化、合成）
标注方法: 不适用

数据格式

数据集中的每条记录都是一个JSON对象，包含以下字段：

顶层字段

file_name: 构成此文档的源文件路径/名称数组
text: 作为单个字符串的完整文档文本内容
chunks: 表示文档分段部分的块对象数组
sections_structured: 包含分段信息的格式化章节字符串数组
bundle_id: 多文档束的标识符（如果未捆绑则为空字符串）
bundle_members: 束中包含的文件名数组
is_multi_doc: 指示是否为多文档束的布尔值
document_artifacts: 包含提取的元数据和语义信息的对象
qa_generation: 包含生成的问题-答案对的对象

块对象字段

chunks数组中的每个块包含：

chunk_id: 块的唯一标识符
doc_chunk_index: 块在文档中的索引位置
start: 起始位置（词索引）
end: 结束位置（词索引）
sentence_count: 块中的句子数
text: 块文本内容
word_count: 块中的词数

文档元素字段

document_artifacts对象包含提取的语义元素数组：

contextual_factors: 与理解文档相关的上下文信息
entities: 命名实体
insights: 关键见解和要点
key_concepts: 文档中讨论的主要概念
processes: 描述的过程或程序
relationships: 概念之间的关系
technical_terms: 技术词汇和定义
themes: 文档的总体主题

每个元素项包含text、description和importance字段。

问答生成字段

qa_generation.pairs数组包含问题-答案对，具有以下字段：

question: 生成的问题
answer: 对应的答案
query_type: 查询类型
reasoning_type: 所需的推理类型
question_complexity: 复杂度评分
hop_count: 所需的推理跳数
hop_contexts: 多跳问题的上下文对象数组
segment_ids: 与问题相关的分段ID数组

数据集量化

记录数量: 15095条（包含105,665个查询）
特征数量: 所有层级共32个唯一特征
总数据存储量: 816MB

贡献者

Steve Han, Tom Balough, Chris Milroy, Brooke Ullery, Meiran Peng, Yev Meyer, Eric Tramel, Johnny Greco, Nabin Mulepati, Vibhor Agrawal, Fay Wang

使用条款补充信息

数据集包含使用以下模型创建的合成数据：nvidia/Llama-3_1-Nemotron-Ultra-253B-v1 和 nvidia/Llama-3_3-Nemotron-Super-49B-v1。如果使用此数据集创建、训练、微调或以其他方式改进AI模型，并且该模型被分发或提供，则该AI模型可能须遵守Llama 3.1社区许可协议和Llama 3.3社区许可协议中的再分发和使用要求。

搜集汇总

数据集介绍

构建方式

在信息检索与自然语言处理领域，高质量标注数据的匮乏常制约模型性能的提升。Retrieval-Synthetic-NVDocs-v1 数据集基于 NVIDIA 公开技术文档，借助其开源框架 NeMo Data Designer 合成生成。该框架以 Llama-3.1-Nemotron-Ultra-253B 与 Llama-3.3-Nemotron-Super-49B 等先进大语言模型为核心，从原始文档中自动构建语义丰富的问答对与文档片段。生成过程不仅涵盖事实性、关系性、程序性等多种推理类型，还提取了实体、关键概念、技术术语等深层语义信息，形成结构化的多层级标注，为检索与理解任务提供了坚实的数据基础。

使用方法

该数据集为机器学习和人工智能研究者提供了即用的资源，适用于商业与非商业场景。使用者可直接加载 JSON 格式的数据，利用其中的 `chunks` 字段作为检索知识库，并通过 `qa_generation` 字段中的问答对进行监督学习或评估。对于嵌入模型训练，可将问题与相关文档块作为正样本对；在检索增强生成系统开发中，可将文档块与多跳问答结合，构建端到端的检索与答案生成流程。研究人员还可利用提取的文档语义构件进行文档理解与信息提取的专项研究，推动自然语言理解技术的边界。

背景与挑战

背景概述

随着信息检索与自然语言处理技术的深度融合，构建能够精准理解复杂语义并执行多跳推理的检索增强生成系统成为研究前沿。在此背景下，英伟达公司于2026年1月推出了Retrieval-Synthetic-NVDocs-v1数据集，该数据集依托其开源框架NeMo Data Designer，基于公司公开技术文档生成合成数据。其核心研究问题聚焦于为嵌入模型与检索增强生成系统提供高质量、多维度监督信号，涵盖事实性、关系性、程序性、推理性、时序性、因果性及视觉性等多种推理类型，旨在推动语义检索与文档理解技术的边界拓展。

当前挑战

该数据集旨在应对信息检索领域内复杂语义匹配与多跳推理的挑战，其问题设计需模拟真实场景中用户对技术文档的深层理解需求，如处理结构查询、上下文关联及跨段落推理等任务。在构建过程中，挑战主要源于合成数据的质量保障，包括确保生成的问题-答案对在语义丰富性与逻辑一致性上逼近人工标注，同时维持多样化的推理类型与查询复杂度，并有效提取文档实体、关键概念及关系网络等语义构件，以支撑检索系统对文档深层结构的建模需求。

常用场景

经典使用场景

在信息检索与自然语言处理领域，Retrieval-Synthetic-NVDocs-v1数据集为嵌入模型和检索增强生成系统的训练与评估提供了标准化基准。该数据集通过合成方法生成了涵盖多种推理类型和查询模式的文档块与问答对，特别适用于训练密集检索模型以学习查询与相关段落之间的语义相似性。研究人员可借助其丰富的结构化解构，如实体、关系和关键概念等文档构件，构建高效的检索管道，从而在复杂多跳和上下文查询场景下验证系统性能。

解决学术问题

该数据集有效应对了信息检索研究中高质量监督数据稀缺的挑战，通过合成技术生成了大规模、多样化的问答对，覆盖事实性、关系性、程序性及因果推理等多种类型。这为学术探索提供了统一评估框架，助力解决嵌入模型在语义匹配精度、多跳推理鲁棒性以及跨领域泛化能力等方面的核心问题。其结构化标注进一步推动了文档理解与语义提取研究，为构建更智能的检索与问答系统奠定了数据基础。

实际应用

在实际应用中，该数据集可直接服务于企业级知识库构建与智能客服系统开发。工程师可利用其文档块作为知识源，结合检索增强生成技术，搭建能够处理复杂技术咨询的问答平台。例如，在技术支持、产品文档解析等场景中，系统可通过学习数据集中多类型查询模式，提升对用户意图的深层理解与准确响应能力，从而优化用户体验并降低人工服务成本。

数据集最近研究