Faithfulness-QA

Name: Faithfulness-QA
Creator: WisPaper.AI; 复旦大学·计算机科学与人工智能学院
Published: 2026-04-30 01:00:16
License: 暂无描述

arXiv2026-04-30 更新2026-05-01 收录

下载链接：

https://github.com/qzhangFDU/faithfulness-qa-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Faithfulness-QA是由WisPaper.AI与复旦大学联合构建的大规模反事实实体替换数据集，包含99,094条样本，源自SQuAD和TriviaQA的问答对。该数据集通过自动化管道识别上下文中的命名实体，替换为类型一致的替代实体，制造上下文与模型参数记忆间的受控冲突。数据涵盖8类实体，实体库包含76,953个维基百科提取的条目，经严格质量过滤确保100%通过率。其核心价值在于为基于注意力的忠实性训练目标提供资源，并作为评估RAG系统上下文 grounding 行为的基准，旨在解决模型过度依赖参数记忆而忽略检索内容的关键问题。

提供机构：

WisPaper.AI; 复旦大学·计算机科学与人工智能学院

创建时间：

2026-04-28

原始信息汇总

数据集概述

Faithfulness-QA 是一个大规模反事实实体替换数据集，包含 99,094 个问答对，专门用于训练和评估检索增强生成（RAG）模型对检索上下文的忠实度。

核心思想

通过反事实实体替换，对每个问答样本，将上下文中包含答案的实体替换为类型一致的替代实体，从而在上下文与模型的参数化知识之间制造可控冲突。忠实模型应输出上下文中的替代实体，而非记忆中的原始实体。

数据来源与规模

来源	输入样本	输出样本	成功率	训练集	验证集	测试集
SQuAD	87,599	49,094	56.0%	39,275	4,909	4,910
TriviaQA	87,041	50,000	57.4%	40,000	5,000	5,000
总计	174,640	99,094	56.7%	79,275	9,909	9,910

关键特性

8种实体类型：PERSON、ORG、GPE、DATE、CARDINAL、NORP、LOC、EVENT
76,953个唯一实体：构建了类型化的实体库
100%质量通过率：通过200样本自动化审计
预分割数据集：80/10/10的训练/验证/测试划分
完全自动化流水线：可从源数据集复现

实体类型分布

类型	SQuAD	SQuAD占比	TriviaQA	TriviaQA占比
PERSON	9,775	19.9%	22,871	45.7%
ORG	10,114	20.6%	8,186	16.4%
DATE	9,997	20.4%	2,057	4.1%
GPE	6,292	12.8%	11,810	23.6%
CARDINAL	6,568	13.4%	1,348	2.7%
NORP	4,004	8.2%	1,247	2.5%
LOC	1,629	3.3%	1,952	3.9%
EVENT	715	1.5%	529	1.1%

数据格式

每个样本为JSONL格式的JSON对象，关键字段包括：

question：问题文本
original_context：未修改的原始上下文
modified_context：反事实实体替换后的上下文
faithful_answer：给定修改后上下文的正确答案（即替代实体）
original_answer：源数据集中的正确答案
entity_type：实体NER类型
source：来源数据集（squad或triviaqa）

构建方法

使用四阶段自动化流水线：

实体库构建：从SQuAD上下文中提取76,953个实体
NER与答案实体匹配：通过精确匹配、子串匹配、位置重叠三种策略匹配
反事实替换：从实体库采样同类型替代实体，最多重采样5次以保证长度兼容
质量过滤：6项质量检查，80/10/10分割

质量验证

检查项	通过率	目标
替代实体出现在修改后上下文中	200/200 (100%)	100%
原始实体从修改后上下文中移除	200/200 (100%)	100%
上下文确实发生了变化	200/200 (100%)	100%
上下文长度比在[0.5, 2.0]内	200/200 (100%)	≥90%

预期用途

忠实度感知的微调训练
基于注意力的忠实度损失函数
忠实度评估（评估模型输出忠实答案 vs 原始答案的比率）
知识冲突研究

已知局限

未进行指代消解
基于规则的质检，无NLI语义一致性验证
部分替换语义上不合理
仅支持英文

搜集汇总

数据集介绍

构建方式

Faithfulness-QA 数据集的构建依托于反事实实体替换这一核心策略。研究团队从两个经典的抽取式问答基准——SQuAD 与 TriviaQA——出发，首先利用 SpaCy 的命名实体识别模型从原始上下文中识别出承载答案的命名实体，并为其匹配类型一致的实体。随后，从精心构建的包含 76,953 个实体的类型化实体库中，为每个待替换实体随机采样一个同类型但不同的替换项，并通过长度兼容性约束进行筛选。替换操作将原始实体在上下文中的所有出现均替换为新的实体，由此在上下文与模型参数记忆之间制造出可控的知识冲突。整个流程经过六项严格的质量过滤规则，最终从 174,640 个输入样本中成功产出 99,094 个高质量的反事实样本。

使用方法

Faithfulness-QA 专为训练与评估上下文忠实的检索增强生成模型而设计。在训练阶段，研究者可将修改后的上下文与问题配对作为输入，以忠实答案作为监督信号，通过微调使模型学会在知识冲突情境下依赖上下文而非参数记忆。该数据集亦可支持基于注意力的忠实性损失函数，其显式的实体替换区域为交叉注意力权重的监督提供了天然锚点。作为评估基准时，通过比较模型输出忠实答案（上下文导向）与原始答案（参数记忆导向）的比例，可精准衡量模型的上下文接地行为。此外，原始与修改上下文的配对结构还为知识冲突下的模型行为分析提供了可控的实验平台。

背景与挑战

背景概述

检索增强生成（RAG）模型常因依赖参数化记忆而非检索到的上下文而产生不忠实回答，这一缺陷严重制约了其在知识密集型任务中的可靠性。为应对这一挑战，Li Ju等人（来自WisPaper.AI与复旦大学计算机科学技术学院）于2026年提出了Faithfulness-QA数据集，旨在通过大规模反事实样本的构建，训练模型在上下文与内部知识冲突时优先遵循检索内容。该数据集从SQuAD和TriviaQA两个基准中筛选出174,640个问答对，利用命名实体识别技术识别上下文中的答案实体，并将其替换为类型一致的替代实体，最终生成99,094个高质量的反事实样本。这一资源的问世填补了RAG领域缺乏大规模忠实性训练数据的空白，为注意力驱动的忠实性目标设计和上下文扎根行为评估提供了关键支撑。

当前挑战

Faithfulness-QA需解决的核心挑战在于RAG模型普遍存在的忠实性缺失问题——标准自回归训练损失无法区分输出源自上下文还是参数记忆，导致模型在知识冲突时倾向于依赖内部先验知识。构建过程中面临多重困难：首先，实体替换需确保类型一致性，但NER模型对非实体型答案（如描述性短语）的识别率有限，导致43.3%的样本被过滤；其次，替换后的上下文必须保持语法通顺，而基于规则的字符串替换无法处理指代消解（如代词未更新），可能引入轻微语义不一致；此外，实体库中三个类型（LOC、NORP、EVENT）的条目不足5,000，限制了替换多样性；最后，自动替换可能产生语义上不合理的结果（如“出生于阿姆利则，伊利诺伊州”），需依赖人工或NLI模型进行进一步质量筛选。

常用场景

经典使用场景

在检索增强生成（RAG）的范式下，Faithfulness-QA 被设计为一种大规模的反事实实体替换数据集，其核心用途在于训练和评估模型对检索上下文的忠实程度。通过在 SQuAD 和 TriviaQA 的源样本中，以命名实体识别为工具，将答案实体替换为类型一致的替代项，该数据集人为制造了上下文与模型参数记忆之间的知识冲突。经典的使用场景是将修改后的上下文与问题共同作为输入，驱动模型学习优先服从上下文而非自身记忆，从而在训练过程中强化对上下文的关注机制。

解决学术问题

Faithfulness-QA 直面 RAG 系统中长期存在的“不忠实”顽疾——模型在检索到的上下文与内化知识相左时，往往弃检索证据于不顾，转而依赖参数记忆作答。此前学界缺乏大规模、系统化的训练数据来明确赋予模型“服从上下文”的信号。该数据集以近十万级样本填补了这一空白，通过可控的反事实替换，使得模型得以在训练中直面知识冲突，从而催生注意力层面的忠实性损失函数设计，并为系统性研究语言模型在冲突情境下的行为偏好提供了量化工具与评估基准。

实际应用

在实际应用中，Faithfulness-QA 为构建真正可信赖的 RAG 系统提供了关键训练资源。企业级问答、智能客服、医疗知识检索、法律文档解读等场景均要求模型严格遵循最新或特定领域的检索材料，而非依赖可能过时或不适用的预训练知识。通过在该数据集上微调，模型在开放域问答和基于文档的生成任务中能够显著减少幻觉现象，增强对实时、动态信息的响应可靠性，从而提升知识密集型应用的真实性与用户信任度。

数据集最近研究