Faithfulness-QA

github2026-04-22 更新2026-04-29 收录

下载链接：

https://github.com/qzhangFDU/faithfulness-qa-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Faithfulness-QA是一个包含99,094个问答对的大规模数据集，旨在训练和评估检索增强生成（RAG）模型对检索上下文的忠实度。其核心思想是通过反事实实体替换，在上下文中替换答案承载实体，创造上下文与模型参数知识之间的受控冲突。忠实模型应输出替换实体（来自上下文），而非原始实体（来自记忆）。

Faithfulness-QA is a large-scale dataset containing 99,094 question-answer pairs, designed for training and evaluating the faithfulness of retrieval-augmented generation (RAG) models to their retrieved contexts. The core idea is to create controlled conflicts between the context and the model's parametric knowledge through counterfactual entity replacement, i.e., substituting the answer-bearing entities within the context. A faithful model should output the substituted entities from the context rather than the original entities retrieved from its parametric memory.

创建时间：

2026-04-22

原始信息汇总

数据集概述

Faithfulness-QA 是一个大规模的反事实实体替换数据集，包含 99,094 个问答对，专门用于训练和评估检索增强生成（RAG）模型对检索上下文的忠实度（Faithfulness）。

核心思想

通过反事实实体替换，将上下文中的答案实体替换为类型一致的其他实体，制造上下文与模型参数知识之间的可控冲突。一个忠实度高的模型应输出上下文中的替换后实体，而非记忆中存储的原始实体。

关键特性

规模与来源：从 SQuAD（49,094 个）和 TriviaQA（50,000 个）构建，共 99,094 个反事实 QA 样本。
实体类型：覆盖 8 种实体类型：人物、组织、地缘政治实体、日期、基数、民族/群体、地点、事件。
实体库：包含 76,953 个独立实体。
质量控制：200 样本自动化审核的通过率为 100%。
数据划分：提供现成的训练集/开发集/测试集，比例为 80/10/10。
自动化流水线：可完全从源数据集复现。

数据集统计

总体统计

来源	输入量	输出量	成功率	训练集	开发集	测试集
SQuAD	87,599	49,094	56.0%	39,275	4,909	4,910
TriviaQA	87,041	50,000	57.4%	40,000	5,000	5,000
总计	174,640	99,094	56.7%	79,275	9,909	9,910

实体类型分布

类型	SQuAD 数量	SQuAD 比例	TriviaQA 数量	TriviaQA 比例
人物	9,775	19.9%	22,871	45.7%
组织	10,114	20.6%	8,186	16.4%
日期	9,997	20.4%	2,057	4.1%
地缘政治实体	6,292	12.8%	11,810	23.6%
基数	6,568	13.4%	1,348	2.7%
民族/群体	4,004	8.2%	1,247	2.5%
地点	1,629	3.3%	1,952	3.9%
事件	715	1.5%	529	1.1%

互补性：TriviaQA 以人物实体为主（45.7%），SQuAD 则在组织、日期、人物和基数上分布均衡，两者结合实现了广泛的实体类型多样性。

实体库统计

类型	数量
组织	25,378
人物	20,292
日期	10,613
地缘政治实体	6,769
基数	6,636
地点	2,977
民族/群体	2,849
事件	1,439
总计	76,953

数据格式

每个样本为 JSONL 格式的 JSON 对象，示例如下：

json { "id": "5733be284776f41900661182", "question": "To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?", "original_context": "...the Virgin Mary reputedly appeared to Saint Bernadette Soubirous in 1858...", "modified_context": "...the Virgin Mary reputedly appeared to Kiyomori in 1858...", "original_answer": "Saint Bernadette Soubirous", "faithful_answer": "Kiyomori", "original_entity": "Saint Bernadette Soubirous", "replacement_entity": "Kiyomori", "entity_type": "PERSON", "source": "squad" }

字段说明

字段	类型	描述
`id`	字符串	源数据集中的原始样本 ID
`question`	字符串	问题文本
`original_context`	字符串	源数据集的未修改上下文
`modified_context`	字符串	反事实实体替换后的上下文
`original_answer`	字符串	源数据集中的原始答案
`faithful_answer`	字符串	修改后上下文中的正确答案（即替换实体）
`original_entity`	字符串	被替换的命名实体
`replacement_entity`	字符串	替换后的新实体
`entity_type`	字符串	NER 类型：PERSON、GPE、ORG、DATE、CARDINAL、NORP、LOC 或 EVENT
`source`	字符串	源数据集：squad 或 triviaqa

构建方法

流水线包含四个阶段：

实体库构建：使用 SpaCy NER 从 19,035 个 SQuAD 上下文中提取所有命名实体，构建包含 76,953 个实体的实体库。
NER 与答案实体匹配：通过精确匹配、子串匹配、位置重叠三级策略，将答案与已识别的实体进行匹配。
反事实替换：从实体库中采样类型一致的替换实体，最多重采样 5 次以保证长度兼容性（0.3–3.0 倍比例），然后替换上下文中的所有出现。
质量过滤与划分：应用 6 项质量检查（存在性、变化性、长度、新颖性、频次、实体长度），并按 80/10/10 划分数据。

质量控制

检查项	通过率	目标
替换实体出现在修改后的上下文中	200/200 (100%)	100%
原始实体从修改后的上下文中移除	200/200 (100%)	100%
上下文确实发生了改变	200/200 (100%)	100%
上下文长度比例在 [0.5, 2.0] 内	200/200 (100%)	≥90%

预期用途

忠实度感知的微调：使用 (modified_context, question) → faithful_answer 训练模型，使其遵循上下文而非参数记忆。
基于注意力的忠实度损失：监督交叉注意力权重，确保模型关注检索到的上下文。
忠实度评估：衡量模型输出忠实答案（基于上下文）与原始答案（依赖参数知识）的比例。
知识冲突研究：研究 LLM 在检索上下文与参数知识相矛盾时的行为。

已知局限

无共指消解：替换实体的指代关系未更新。
无 NLI 过滤：质量检查基于规则，未使用 NLI 模型进行语义一致性验证。
语义合理性：部分替换语法正确但语义上不合理（如“出生于[城市]，伊利诺伊州”中替换为非美国城市）。
仅支持英文：当前流水线和实体库仅支持英语。

搜集汇总

数据集介绍

构建方式

Faithfulness-QA数据集基于反事实实体替换策略构建，用于评估检索增强生成模型对上下文忠实性的能力。构建流程从SQuAD和TriviaQA数据集中选取约17.5万个问答对，首先利用SpaCy的命名实体识别技术从原始上下文中提取实体，构建包含76,953个实体的类型化实体库。随后通过精确匹配、子串匹配与位置重叠三级级联策略，将每个答案与实体关联，并替换为同类型替代实体。最后经过六项质量过滤检验，确保替换实体存在、原实体移除、上下文发生变化且长度比例合理，最终生成99,094个高质量的问答样本，并按照80%/10%/10%的比例划分为训练集、验证集和测试集。

特点

该数据集的核心特色在于其反事实实体替换机制，通过引入上下文与模型参数知识之间的受控冲突，精准衡量模型是否优先依赖检索到的上下文而非内部记忆。数据集覆盖PERSON、ORG、GPE、DATE、CARDINAL、NORP、LOC、EVENT八种实体类型，来源数据集互为补充，TriviaQA以人物实体为主，SQuAD提供均衡的实体覆盖，确保了实体类型的多样性与广泛性。每个样本包含原始上下文、修改后上下文、原始答案、忠实答案等丰富字段，便于开展多维度分析。数据集通过自动化流水线构建，可完全复现，且经200样本自动审计达到100%的通过率，质量可靠。

使用方法

Faithfulness-QA数据集支持多种应用方式，可用于忠实性感知微调，将修改后的上下文与问题作为输入，忠实答案作为目标，训练模型优先遵循上下文。研究者也可基于注意力机制设计忠实性损失函数，监督模型对检索上下文的关注。在评估场景中，可通过计算模型输出忠实答案与原始答案的比例，量化模型对上下文的依赖程度。代码仓库提供了完整的加载与评估示例，使用Python标准json库即可读取JSONL格式数据，并可直接调用预定义的计算忠实率函数进行分析。数据集也适用于知识冲突研究，探索大语言模型在检索上下文与参数知识矛盾时的行为模式。

背景与挑战

背景概述

Faithfulness-QA数据集由张琦等人于2026年创建，旨在解决检索增强生成（RAG）模型在面对检索上下文与模型参数知识冲突时的忠实性问题。该数据集通过反事实实体替换策略，从SQuAD和TriviaQA中衍生出99,094个问答对，涵盖8种实体类型、76,953个独特实体，构建了一个大规模、高质量的训练与评估基准。其核心研究问题是：如何训练RAG模型在上下文与内嵌记忆相矛盾时，坚定地依据检索到的上下文生成答案。该数据集在RAG忠实性研究领域具有重要影响力，为对比实验、忠实性微调及知识冲突研究提供了标准化工具。

当前挑战

Faithfulness-QA数据集面临的挑战主要源于两方面。领域层面，RAG模型必须解决检索上下文与参数知识冲突的难题，即如何在模型偏好与外部信息不一致时，确保输出严格基于上下文，以消除幻觉和事实错误。构建层面，挑战包括：（1）保证反事实替换的语义合理性，避免生成过于离奇的样例；（2）缺乏指代消解机制，导致替换实体相关的代名词未被更新，可能影响训练效果；（3）仅依赖规则过滤质量，未引入NLI模型进行语义一致性验证，可能遗漏部分低质样本；（4）当前仅支持英语，限制了其跨语言应用的泛化能力。

常用场景

经典使用场景

Faithfulness-QA数据集最经典的使用场景在于评测与训练检索增强生成（RAG）模型对检索上下文的内在忠诚度。该数据集的核心理念是通过反事实实体替换技术，在上下文中将承载答案的实体替换为类型一致的替代实体，从而在上下文信息与模型参数化知识之间构建受控冲突。研究者利用此数据集可系统性地评估模型在生成时是忠实于给定的检索上下文（输出替代实体）还是依赖于自身的参数化记忆（输出原始实体），进而揭示RAG模型在处理知识冲突时的行为模式。

解决学术问题

Faithfulness-QA数据集主要解决了RAG领域中检索上下文未被模型充分遵循的关键学术问题。在传统RAG框架下，模型常常倾向于依赖其参数化记忆生成答案，即便检索到的上下文包含矛盾信息。该数据集通过大规模构建近10万对上下文与答案的对照样本，为量化度量RAG模型的上下文忠诚度提供了标准化基准。其学术意义在于推动了RAG研究从单纯关注检索质量向同时评估检索结果是否被有效利用这一更深层次转变，促使学术界对模型的知识冲突处理机制进行系统探索。

衍生相关工作

Faithfulness-QA数据集衍生了一系列关于上下文忠诚度的经典研究工作。Self-RAG通过自我反思机制实现检索增强生成，FAITHFULRAG在事实层面建模冲突以增强RAG的忠实性，FaithEval构建了包含4900个样本的忠诚度评测基准。此外CounterFact数据集专注于知识编辑场景下的反事实建模，Knowledge Conflicts综述系统梳理了大语言模型处理知识冲突的各类方法。这些工作共同构成了围绕上下文忠诚度的完整研究脉络，推动RAG领域向着更可靠、更可控的方向持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集