pminervini/NQ-Swap

Name: pminervini/NQ-Swap
Creator: pminervini
Published: 2024-03-01 09:33:31
License: 暂无描述

Hugging Face2024-03-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pminervini/NQ-Swap

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit dataset_info: features: - name: question dtype: string - name: org_context dtype: string - name: org_answer sequence: string - name: sub_context dtype: string - name: sub_answer sequence: string splits: - name: dev num_bytes: 10056243 num_examples: 4746 download_size: 2754938 dataset_size: 10056243 configs: - config_name: default data_files: - split: dev path: data/dev-* ---

--- 许可证：MIT许可证数据集信息：特征项： - 字段名：问题（question），数据类型：字符串 - 字段名：原始上下文（org_context），数据类型：字符串 - 字段名：原始答案（org_answer），数据类型：字符串序列 - 字段名：子上下文（sub_context），数据类型：字符串 - 字段名：子答案（sub_answer），数据类型：字符串序列数据集划分： - 划分名称：开发集（dev），字节数：10056243，样本数量：4746 下载大小：2754938 数据集总大小：10056243 配置项： - 配置名称：默认配置（default）数据文件： - 划分：开发集（dev），路径：data/dev-* ---

提供机构：

pminervini

原始信息汇总

数据集概述

数据集信息

特征

question: 数据类型为字符串。
org_context: 数据类型为字符串。
org_answer: 数据类型为字符串序列。
sub_context: 数据类型为字符串。
sub_answer: 数据类型为字符串序列。

数据分割

dev: 包含4746个样本，总字节数为10056243。

数据集大小

下载大小: 2754938字节。
数据集大小: 10056243字节。

配置

default: 包含dev分割的数据文件路径为data/dev-*。

搜集汇总

数据集介绍

构建方式

在开放域问答数据集构建的探索中，NQ-Swap数据集通过一种创新的样本扰动机制得以诞生。其核心思路源于对原始Natural Questions数据中上下文与答案对应关系的重新编排，具体而言，该数据集为每个样本保留了原始问题（question）和原始上下文（org_context）及对应答案（org_answer），同时引入了一个替换上下文（sub_context）及其对应的替换答案（sub_answer）。这种设计旨在模拟信息检索中上下文替换对问答一致性的影响，从而为评估模型在上下文扰动下的鲁棒性提供基准。数据集仅包含一个开发集（dev）划分，共计4746个样本，以轻量化的规模聚焦于特定场景的测试。

特点

NQ-Swap数据集的突出特征在于其双重上下文与答案的结构化配置。每个样本包含原始与替换两套上下文-答案对，这种设计不仅保留了原问答任务的完整性，更通过引入语义上可能冲突的替换信息，构建了对抗性测试环境。该数据集专门用于评估模型在面对上下文替换时能否保持答案的可靠性，尤其适合检测模型对上下文噪声的敏感度。此外，其单一开发集划分和适中的样本数量使得该数据集成为快速验证模型鲁棒性的理想工具，避免了大规模训练集的冗余。

使用方法

使用NQ-Swap数据集时，研究者可直接加载其开发集，通过对比模型在org_context与sub_context下对同一问题的输出进行评测。具体而言，可将原始问题与两种上下文分别输入模型，并计算其预测与org_answer及sub_answer的一致性。该数据集支持直接通过HuggingFace的datasets库进行加载，配置为默认的'dev'划分，无需额外预处理。其轻量结构便于集成到问答系统的评估管道中，特别适用于分析模型在上下文替换场景下的性能退化程度，为提升模型的上下文理解鲁棒性提供实证基础。

背景与挑战

背景概述

在自然语言处理领域，机器阅读理解与开放域问答系统的发展长期受限于训练数据中存在的表面关联与虚假模式，这些模式使得模型倾向于依赖捷径而非真正理解语义。由Pasquale Minervini等研究人员于近年提出的NQ-Swap数据集，正是为诊断和缓解此类脆弱性而设计。该数据集基于Natural Questions构建，通过对原始上下文与答案进行系统性的替换操作，生成具有对抗性质的样本，从而评估模型在分布外场景下的泛化能力。其核心研究问题聚焦于：当问题-上下文-答案三元组中的语义一致性被破坏时，模型能否仍保持稳健推理。NQ-Swap的出现为可解释性与鲁棒性研究提供了关键基准，推动了领域对模型行为深层次理解的探索。

当前挑战

NQ-Swap所应对的核心挑战在于，现有问答模型常利用上下文与答案之间的表层统计关联（如词汇重叠或共现模式）而非真实逻辑推理，导致在对抗性样本上表现显著退化。构建过程中，研究者面临如何在不引入人工标注偏见的前提下，自动生成语义有效但结构颠覆的替换样本，同时确保替换后的上下文与答案仍具备事实合理性。此外，数据集的规模（仅4746个开发样本）限制了其在训练阶段的应用，主要作为评估工具，这要求开发者设计更高效的对抗样本生成策略以扩展覆盖范围，并探索如何将此类诊断信号融入模型训练以提升根本鲁棒性。

常用场景

经典使用场景

NQ-Swap数据集在自然语言处理领域中被广泛用于评估和提升问答系统的鲁棒性与泛化能力。该数据集通过将原始问题中的上下文与答案进行系统性替换，构建出具有语义扰动但保持逻辑一致性的样本对，从而为研究模型在对抗性输入下的表现提供了理想基准。经典使用场景包括测试预训练语言模型面对上下文偏移时的答案推理稳定性，以及训练具有更强抗干扰能力的神经检索-阅读器架构。

衍生相关工作

NQ-Swap催生了一系列重要衍生研究，包括对抗性样本生成方法、鲁棒性训练策略以及可解释性分析框架。例如，基于该数据集的工作提出了对比学习增强的上下文编码器，有效缓解了替换样本导致的表示混淆；另一项经典研究则利用其扰动特性，开发了注意力机制可视化工具，用于诊断模型在语义边界处的决策路径。这些工作共同拓展了对抗性自然语言理解的理论边界与实践范式。

数据集最近研究