Retrieval-Synthetic-NVDocs-v1
收藏数据集概述
基本信息
- 数据集名称: Retrieval-Synthetic-NVDocs-v1
- 所有者: NVIDIA Corporation
- 创建日期: 2026年1月22日
- 许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
- 语言: 英语
- 数据规模: 100K < n < 1M
- 总存储量: 816MB
数据集描述
Retrieval-Synthetic-NVDocs-v1 是一个用于训练和评估嵌入与检索增强生成系统的合成检索数据集,包含问题-答案监督信息。该数据集基于NVIDIA公开可用的内容,使用NVIDIA的开源框架NeMo Data Designer生成。数据集包含文档块以及与多种推理类型和查询类型配对的语义丰富的问题-答案对。每个记录还包含提取的文档元素。
任务类别
- 问答
- 文本检索
- 文本排序
- 文本分类
预期用途
本数据集适用于从事信息检索和自然语言理解系统研究的机器学习研究人员、AI工程师和开发者。主要用例包括:
- 训练和微调嵌入模型
- 评估检索系统
- 检索增强生成系统开发
- 问答系统训练
- 文档理解研究
数据集特征
- 数据收集方法: 混合(人工、自动化、合成)
- 标注方法: 不适用
数据格式
数据集中的每条记录都是一个JSON对象,包含以下字段:
顶层字段
file_name: 构成此文档的源文件路径/名称数组text: 作为单个字符串的完整文档文本内容chunks: 表示文档分段部分的块对象数组sections_structured: 包含分段信息的格式化章节字符串数组bundle_id: 多文档束的标识符(如果未捆绑则为空字符串)bundle_members: 束中包含的文件名数组is_multi_doc: 指示是否为多文档束的布尔值document_artifacts: 包含提取的元数据和语义信息的对象qa_generation: 包含生成的问题-答案对的对象
块对象字段
chunks数组中的每个块包含:
chunk_id: 块的唯一标识符doc_chunk_index: 块在文档中的索引位置start: 起始位置(词索引)end: 结束位置(词索引)sentence_count: 块中的句子数text: 块文本内容word_count: 块中的词数
文档元素字段
document_artifacts对象包含提取的语义元素数组:
contextual_factors: 与理解文档相关的上下文信息entities: 命名实体insights: 关键见解和要点key_concepts: 文档中讨论的主要概念processes: 描述的过程或程序relationships: 概念之间的关系technical_terms: 技术词汇和定义themes: 文档的总体主题
每个元素项包含text、description和importance字段。
问答生成字段
qa_generation.pairs数组包含问题-答案对,具有以下字段:
question: 生成的问题answer: 对应的答案query_type: 查询类型reasoning_type: 所需的推理类型question_complexity: 复杂度评分hop_count: 所需的推理跳数hop_contexts: 多跳问题的上下文对象数组segment_ids: 与问题相关的分段ID数组
数据集量化
- 记录数量: 15095条(包含105,665个查询)
- 特征数量: 所有层级共32个唯一特征
- 总数据存储量: 816MB
贡献者
Steve Han, Tom Balough, Chris Milroy, Brooke Ullery, Meiran Peng, Yev Meyer, Eric Tramel, Johnny Greco, Nabin Mulepati, Vibhor Agrawal, Fay Wang
使用条款补充信息
数据集包含使用以下模型创建的合成数据:nvidia/Llama-3_1-Nemotron-Ultra-253B-v1 和 nvidia/Llama-3_3-Nemotron-Super-49B-v1。如果使用此数据集创建、训练、微调或以其他方式改进AI模型,并且该模型被分发或提供,则该AI模型可能须遵守Llama 3.1社区许可协议和Llama 3.3社区许可协议中的再分发和使用要求。



