cmt-benchmark-nq

Hugging Face2025-04-07 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/copenlu/cmt-benchmark-nq

下载链接

链接失效反馈

官方服务：

资源简介：

NQ数据集是cmt-benchmark项目的一部分，是经过筛选和处理的NQ原始数据集的版本。该数据集包含能够从原始维基百科页面中恢复出金标准段落并且有一个短答案（少于5个词）的样本。数据集分为gpt2-xl和pythia-6.9b两个版本，每个版本都包含验证集和测试集。数据集的列包括样本ID、上下文类型、模板、真实答案、新答案、提示、问题、上下文等。数据集的创建包括从NQ开发样本中提取信息，处理维基百科页面，生成提示和上下文，以及使用LLM生成新的目标答案。

创建时间：

2025-04-02

原始信息汇总

数据集概述：NQ

数据集详情

许可证: MIT
语言: 英语 (en)
数据集名称: NQ
项目来源: cmt-benchmark项目
原始数据集: 由Kwiatkowski et al. (2019)提出的NQ数据集
样本筛选条件:
- 能从原始Wikipedia页面恢复黄金段落
- 存在一个短答案（长度少于5个单词）

数据集结构

配置版本:
- gpt2-xl
- pythia-6.9b
- qwen-1.5b
- qwen-7b
数据文件:
- 每个配置包含validation和test两个分割
样本数量:
- 验证集: 200个样本
- 测试集: 剩余样本
大小类别: 1K<n<10K

通用列（所有版本相同）

example_id: 样本ID，匹配原始NQ ID
context_type: 上下文类型（"gold", "edited", "irrelevant"）
template: 用于生成提示的模板
template_w_context: 带上下文的提示模板
target_true: 正确答案（NQ短答案）
target_new: 上下文支持的答案
prompt: 不带上下文的提示
prompt_w_context: 带上下文的提示
question: 原始NQ问题
context: 与问题对应的上下文

模型相关列

pred: 模型对提示的top-1预测
pred_w_context: 模型对带上下文提示的top-1预测
pred_prob: 预测token的概率
pred_prob_w_context: 带上下文预测token的概率
context_token_prob: 上下文token的概率
context_token_prob_w_context: 带上下文的上下文token概率
true_token_prob: 真实token的概率
true_token_prob_w_context: 带上下文的真实token概率
memory_token_prob_w_context: 带上下文的记忆token概率

数据集创建

数据下载与处理:
- 从Google Cloud Storage下载8,000个NQ开发样本
- 处理原始Wikipedia页面以获取HTML元素块
- 确保黄金段落可恢复，否则丢弃样本
答案提取:
- 从注释中提取短答案并重命名为target_true
- 仅保留短答案对应单一段落且长度不超过4个单词的样本
上下文生成:
- 黄金上下文: 使用包含黄金段落的块
- 无关上下文: 使用非黄金块（通过jina-reranker-v2-base-multilingual排名）
- 编辑上下文: 替换target_true为target_new
新目标生成:
- 使用command-r-plus-08-2024生成新目标
- 丢弃无法生成足够目标的样本（0.8%）
数据集分割:
- 验证集: 200个样本，上下文类型均匀分布
- 测试集: 剩余样本

搜集汇总

数据集介绍

构建方式

该数据集基于自然问答领域著名的NQ数据集构建，通过精心设计的筛选与加工流程确保数据质量。研究团队从原始8,000个开发集样本出发，首先通过HTML元素解析技术提取维基百科页面的文本块，严格筛选出能准确定位标准答案的样本。针对不同上下文类型，分别采用黄金段落标注、基于跨语言重排序模型的无关段落选取，以及通过大语言模型生成干扰答案的编辑段落三种构建策略。在编辑样本生成环节，采用迭代式提示工程确保替代答案的合理性与多样性，最终形成包含验证集和测试集的标准化数据集。

特点

该数据集最显著的特征在于其精心设计的上下文对比实验框架。每个样本均包含三种不同类型的上下文环境：原始黄金段落、语义无关段落以及经过对抗性编辑的段落。这种结构设计为研究模型在不同信息干扰条件下的表现提供了理想实验平台。数据集同时记录了多个主流语言模型在各样本上的预测结果及对应概率分布，包括GPT-2 XL、Pythia-6.9B等不同规模模型的输出数据，为对比分析模型行为提供了丰富维度。所有样本均保持统一的提示模板设计，确保实验变量的严格控制。

使用方法

研究者可通过HuggingFace平台直接加载不同模型版本的数据文件进行实验分析。数据集采用标准JSONL格式存储，包含验证集（200样本）和测试集两种分割方式。使用时应特别注意区分样本的context_type字段，该字段标识了上下文的三种实验条件。对于模型性能评估，可综合比较pred与target_true的匹配度，或通过pred_prob等概率指标进行细粒度分析。编辑样本中的target_new字段为研究模型抗干扰能力提供了重要参照，而memory_token_prob等衍生指标则可用于探索模型的记忆机制。

背景与挑战

背景概述

cmt-benchmark-nq数据集源自自然问答（Natural Questions, NQ）基准，由Kwiatkowski等学者于2019年提出，旨在推动开放域问答系统的研究。该数据集基于维基百科页面构建，要求模型从长文档中定位并提取简短答案。作为cmt-benchmark项目的组成部分，此版本通过严格筛选确保样本包含可追溯的金标段落及不超过5个单词的短答案，同时引入金标上下文、无关上下文和编辑上下文三种情境，为研究模型在噪声环境下的鲁棒性提供了新维度。其创新性的数据构造方法显著提升了问答系统评估的严谨性，成为测试模型记忆偏差与上下文依赖性的重要工具。

当前挑战

该数据集面临的核心挑战体现在两个层面：在领域问题层面，如何准确评估模型对编辑后上下文的抗干扰能力成为关键，尤其当金标答案被系统性替换时，模型需区分语义相近但事实错误的答案；在构建层面，确保编辑上下文的语义合理性极具难度，需通过多轮LLM生成与人工验证避免无效噪声，而原始NQ数据中仅有0.8%的样本因无法生成合格替代答案被剔除。此外，维持三种上下文类型在验证集中的均衡分布，同时保留原始NQ的复杂语义特征，对数据清洗与采样策略提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，cmt-benchmark-nq数据集被广泛用于评估和比较不同大型语言模型在问答任务中的表现。该数据集通过提供包含黄金上下文、无关上下文和编辑上下文的样本，为研究者提供了一个全面的测试平台，用于分析模型在不同上下文条件下的回答准确性和鲁棒性。特别是在模型微调和零样本学习场景中，该数据集能够有效揭示模型对上下文信息的依赖程度和抗干扰能力。

实际应用

在实际应用中，cmt-benchmark-nq数据集被用于优化搜索引擎和智能助手的问答系统。通过分析模型在不同上下文条件下的表现，开发者能够设计出更加鲁棒和可靠的问答算法。该数据集还广泛应用于教育领域，用于评估智能辅导系统的回答准确性和抗干扰能力，从而提升用户体验和服务质量。

衍生相关工作

基于cmt-benchmark-nq数据集，研究者们开展了一系列经典工作，包括模型鲁棒性评估框架的构建和上下文依赖性分析方法的开发。该数据集还催生了多项关于模型抗干扰能力和记忆偏差的研究，推动了自然语言处理领域在模型可靠性和解释性方面的进展。此外，该数据集为后续的问答系统优化和智能助手开发提供了重要的数据基础和评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集