dqmis/NQ320K-NCI

Name: dqmis/NQ320K-NCI
Creator: dqmis
Published: 2026-04-30 09:39:32
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/dqmis/NQ320K-NCI

下载链接

链接失效反馈

官方服务：

资源简介：

NQ320K数据集是基于Natural Questions数据集的一个衍生版本，专门用于生成式检索研究。它包含109,650个唯一文档和307,373个训练查询-文档对以及7,830个验证查询-文档对。数据集的特点是文档预处理方法、HTML标签的保留、token-joined whitespace等。数据集适用于文本检索和问答任务，采用CC BY-SA 3.0许可证。

NQ320K is a derivative of the Natural Questions dataset, specifically designed for generative-retrieval research. It includes 109,650 unique documents, 307,373 training query-document pairs, and 7,830 validation query-document pairs. The dataset features document preprocessing methods, retention of HTML tags, token-joined whitespace, etc. It is suitable for text retrieval and question-answering tasks and is released under the CC BY-SA 3.0 license.

提供机构：

dqmis

搜集汇总

数据集介绍

构建方式

NQ320K-NCI数据集是生成式检索领域研究的基石性资源，其构建严格遵循了Neural Corpus Indexer（NCI）论文中公开的预处理流程。该数据集源自Google发布的Natural Questions基准，通过忠实复现官方NCI笔记本中的数据处理步骤，从原始数据中逐行抽取文档文本。构建过程中，首先重建完整的文档文本并提取标题、摘要与正文内容，其中摘要保留HTML标签以匹配NCI的原始格式，而正文则经过标签剥离与空白符规整处理。最终将这些部分无分隔符拼接形成文档特征字符串。文档去重采用基于BERT分词器规范化后标题的精确匹配策略，确保了语料库的纯净性。

特点

该数据集最显著的特点在于其严格控制了与NCI原文完全一致的数据格式，包括doc_tac字符串中令牌间保留空白符的前置标点风格，以及摘要区域内刻意保留的HTML标签结构。语料库包含109,650篇唯一文档，训练集提供307,373对查询-文档映射，验证集包含7,830对样本。数据集中约半数训练对包含长答案，三分之一包含短答案，这为不同粒度的检索任务提供了丰富的标注信息。此外，原始NQ中的uint64类型标识符被特意保存为字符串格式，以避免有符号整数溢出问题，体现了对数据完整性的深度考量。

使用方法

使用该数据集时，推荐通过HuggingFace Datasets库分别加载语料库和查询-文档对两个配置。语料库部分以docid为键、document为值的格式存储，而配对数据则提供查询文本及对应的docid。研究者需构建以docid为索引的文档查找字典，将查询与对应文档进行配对组装，进而输入模型进行训练或评估。对于nq_id字段，务必保持其字符串类型，避免在使用pandas等工具加载时自动转换为int64导致数值溢出错误。该数据集天然适配DSI、NCI、GenRet等生成式检索方法的实验框架，可直接用于相关模型的训练与性能评测。

背景与挑战

背景概述

生成式检索（Generative Retrieval）作为信息检索领域的前沿范式，旨在通过序列到序列模型直接生成相关文档标识符，以替代传统的“检索-排序”级联架构。NQ320K-NCI数据集孕育于这一学术浪潮，其构建源自Google Research发布的Natural Questions语料库（Kwiatkowski等，TACL 2019），并由Wang等人在NeurIPS 2022发表的神经语料索引器（Neural Corpus Indexer, NCI）工作中进行深度加工与标准化预处理。该数据集聚焦的核心研究问题在于，如何将开放域问答中的大规模查询精准映射至语义标识符，从而实现端到端的索引与检索。自2026年5月创建以来，NQ320K-NCI已成为DSI、GenRet、RIPOR、Ultron、LTRGR等众多生成式检索模型的基准测试平台，对推动语义标识符学习与语料高效编码领域的发展产生了深远影响。

当前挑战

NQ320K-NCI数据集所面临的挑战首先体现在领域问题的复杂性上：生成式检索需在无需显式倒排索引的前提下，为涵盖109,650篇文档的语料库学习稳健的语义标识符空间，但原始Natural Questions中文档标题存在歧义与稀疏性，且查询的自然语言表达与文档标识符之间存在严重的语义鸿沟，这对模型的泛化能力构成了严峻考验。其次，在数据集构建过程中，预处理流程严格遵循NCI的官方笔记本，但面临诸多技术难题：对文档令牌进行空格拼接时，会引入多余空白与标点前置特性（如“AMC ,”），这虽能被BERT/T5分词器正确吸收，却对非标准编码器产生兼容性挑战；此外，原始NQ的示例ID为uint64类型，约50%的值因超过有符号int64上限而需以字符串形式存储，这一细节若被忽视极易导致数据加载时的静默溢出错误。

常用场景

经典使用场景

NQ320K-NCI数据集在生成式检索领域中扮演着奠基性的角色，其经典使用场景集中体现在训练和评估基于神经索引的文档检索模型上。该数据集源于Google Natural Questions基准，经由Neural Corpus Indexer（NCI）论文的专属预处理流程重构而成，为约11万篇维基百科文档赋予了唯一的整数标识符（docid），并提供了超过30万条查询-文档配对数据。研究者通常利用其训练集来训练诸如DSI、NCI、GenRet等模型，使其学习将自然语言查询直接映射到文档标识符，从而摒弃传统的倒排索引或双编码器架构。验证集的7,830个配对则用于评估模型在未见查询上的泛化能力，这一范式重塑了开放域问答与文档检索的技术路径。

衍生相关工作

以NQ320K-NCI为数据基座，学术社区衍生出了一系列极具影响力的经典工作。其中，Differentiable Search Index（DSI）首次提出了可微检索索引的概念，将文档标识符直接纳入Transformer编码器的参数空间中。Neural Corpus Indexer（NCI）则进一步采用预定义语义标识符与层次化生成策略，显著提升了检索精度。GenRet通过引入自编码式的语义编码器，突破了固定长度标识符的表达瓶颈。更具前沿性的是，RIPOR模型提出基于残差量化码本的标识符训练方案，而Ultron则探索了大型语言模型与检索索引的深度融合。这些工作共同构建了生成式检索领域的枝繁叶茂的生态体系，而NQ320K-NCI始终是验证和比较这些创新方案的核心数据标尺。

数据集最近研究