NanoKnow_Benchmark

Name: NanoKnow_Benchmark
Creator: Castorini
Published: 2026-02-26 09:49:21
License: 暂无描述

Hugging Face2026-02-26 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/castorini/NanoKnow_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

NanoKnow Benchmark Qrels 是一个预构建的相关性判断数据集，用于将 SQuAD 和 Natural Questions (NQ) 划分为支持和不支持的分割，划分依据是答案是否出现在 nanochat 预训练语料库中。该数据集是 NanoKnow 项目的一部分，旨在测试模型的参数化知识和外部知识依赖能力。数据集包含 SQuAD 和 NQ-Open 的问题，其中 SQuAD 有 10,570 个问题（72% 支持，28% 不支持），NQ-Open 有 3,610 个问题（66% 支持，34% 不支持）。支持的问题包含答案在预训练语料库中的文档标识符和答案偏移量，不支持的问题仅包含问题标识符、问题和答案。数据集文件格式为文本文件，支持的问题包含 qid、question、answer、doc_id 和 answer_offset 字段，不支持的问题包含 qid、question 和 answer 字段。数据集生成采用了 BM25 检索、答案字符串匹配和 LLM 验证的三阶段流程。

提供机构：

Castorini

创建时间：

2026-02-26

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型的知识边界至关重要。NanoKnow_Benchmark的构建采用了严谨的三阶段流程：首先利用BM25检索算法从FineWeb-Edu预训练语料库中为每个问题筛选出前100个候选文档；随后通过精确的答案字符串匹配，仅保留包含标准答案子串的文档；最终引入大型语言模型作为裁判，对候选文档进行语义验证，排除偶然匹配的情况，从而确保支持集问题的答案在语料库中具有确凿的证据基础。

特点

该数据集的核心特征在于其创新的划分方式，将经典的问答数据集SQuAD和Natural Questions依据答案是否存在于预训练语料中，系统地分割为支持集与非支持集。支持集问题旨在探测模型的参数化知识，而非支持集问题则用于评估模型依赖外部知识或进行泛化推理的能力。这种二元划分结构为深入研究语言模型的知识来源与泛化机制提供了精准的评估框架。

使用方法

研究人员可通过Hugging Face命令行工具便捷下载该数据集。在Python环境中，利用自定义的加载函数可以解析数据文件，其中支持集条目包含了问题、答案、对应的语料库文档ID及答案在文档中的字符偏移量，便于进行检索增强生成或知识溯源分析。该数据集主要用于评测模型在参数化知识与外部知识利用上的表现，是探究模型知识边界与可解释性的重要工具。

背景与挑战

背景概述

NanoKnow_Benchmark数据集由Castorini研究团队于2026年构建，其核心研究问题聚焦于探究语言模型在预训练过程中所获取的参数化知识边界。该数据集通过将SQuAD和Natural Questions等经典问答基准划分为支持性与非支持性问题，旨在精确评估模型对特定预训练语料（如FineWeb-Edu）中知识的依赖程度。这一划分机制为理解模型的知识来源与泛化能力提供了关键实验基础，推动了语言模型可解释性与知识探测领域的研究进展。

当前挑战

该数据集旨在解决语言模型参数化知识评估的挑战，即如何区分模型依赖内部记忆与外部泛化的能力。构建过程中的主要挑战包括：从海量预训练语料中精确检索与答案匹配的文档，需克服字符串匹配的噪声；以及利用大型语言模型作为裁判进行验证，以消除语义巧合匹配，确保支持性问题的标注可靠性。这些步骤对计算资源与算法精度提出了较高要求。

常用场景

经典使用场景

在大型语言模型的知识评估领域，NanoKnow_Benchmark 提供了一个精心构建的基准，用于区分模型的知识来源。该数据集通过对 SQuAD 和 Natural Questions 中的问题进行划分，依据答案是否存在于 nanochat 模型的预训练语料库中，将问题归类为“支持”与“不支持”两类。这一划分使得研究者能够精确地评估模型是依赖其内部参数化知识来回答问题，还是需要借助外部检索机制。因此，它成为了衡量模型知识边界与泛化能力的经典工具，尤其在分析小型或高效模型的知识表征方面具有核心价值。

解决学术问题

该数据集直接回应了大型语言模型研究中的一个关键问题：如何量化与分离模型的参数化知识与对外部知识的依赖。传统评估方法往往难以区分模型回答是源于预训练记忆还是实时推理。NanoKnow_Benchmark 通过构建“支持/不支持”的二元划分，为系统性地探究模型的“已知”与“未知”提供了实验基础。它解决了模型知识探测的粒度问题，使得研究者能够分析知识在预训练数据中的出现频率与模型性能的关联，从而深化对模型知识获取与利用机制的理解，推动了可解释人工智能的发展。

衍生相关工作

围绕 NanoKnow_Benchmark 所确立的评估范式，已经衍生出一系列深入的研究工作。其核心方法论——基于预训练语料库验证来划分问题——被后续研究采纳，用于构建其他模型或语料库的专属知识探测集。相关研究进一步探索了知识频率对模型性能的影响、参数化知识与检索知识的交互机制，以及如何利用此类基准进行高效的模型压缩与知识蒸馏。这些工作共同推动形成了“模型知识审计”这一子领域，使得对语言模型内部知识结构的测量变得更加标准化和可操作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集