fever-deception-source
收藏Hugging Face2026-04-16 更新2026-04-17 收录
下载链接:
https://huggingface.co/datasets/AlignmentResearch/fever-deception-source
下载链接
链接失效反馈官方服务:
资源简介:
FEVER Deception Source Dataset 是一个基于 FEVER 数据集构建的诚实与欺骗性事实核查响应对数据集,旨在为欺骗检测探针提供训练数据。每个样本包含来自 FEVER 的声明(带有真实标签 SUPPORTS 或 REFUTES)、一个诚实完成(正确得出结论)和一个欺骗性完成(故意使用看似合理的推理得出错误结论)。数据集通过生成模型 `mlabonne/gemma-3-27b-it-abliterated` 和评判模型 `Qwen/Qwen3-30B-A3B` 生成,并基于 FEVER v1.0 训练集中的 SUPPORTS 和 REFUTES 声明(排除 NEI)。诚实完成基于维基百科文章的证据句子。数据集包含两个批次(batch1_seed42 和 batch2_seed43),共 38,927 行数据,来自 34,375 个独特声明(批次间声明重复率为 23.4%)。统计数据包括声明类型分布(SUPPORTS 和 REFUTES 各约 50%)、欺骗风格(explicit_lie 占 65.7%,misdirection 占 34.3%)、多文章声明比例(约 15.7%)以及平均词数(诚实完成 41.8 词,欺骗性完成 58.3 词)。已知限制包括长度差异、过滤偏差和欺骗风格不平衡。
提供机构:
FAR AI
创建时间:
2026-04-16
搜集汇总
数据集介绍

构建方式
在事实核查与文本真实性验证领域,FEVER Deception Source数据集通过系统化流程构建而成。该数据集以FEVER v1.0训练集中的支持与反驳类主张为基础,排除了无信息类别。生成过程采用经过消融处理的Gemma 27B模型作为生成器,确保模型不会拒绝生成欺骗性内容。每个主张均配对一个基于维基百科证据句的真实回应,以及一个故意得出错误结论但具有合理推理的欺骗性回应。所有生成内容均经过Qwen-30B模型的三阶段质量评估,涵盖风格一致性与逻辑合理性,最终形成包含近三万九千条配对样本的高质量语料。
特点
该数据集的核心特征在于其精心设计的对比结构,每个样本均包含同一主张下的真实与欺骗性两种回应,为欺骗检测研究提供了直接可用的训练对。数据分布呈现出均衡的类别比例,支持与反驳主张各占半数,同时欺骗风格明确分为直接谎言与误导性陈述两类,尽管后者在样本量上略显不足。值得注意的是,欺骗性回应的平均长度显著高于真实回应,这种长度差异可能成为模型学习的潜在捷径。数据集还提供了丰富的元数据,包括生成模型、评估后端、证据来源及欺骗类型等多维度信息,为深入分析模型行为与欺骗模式奠定了坚实基础。
使用方法
该数据集主要服务于欺骗检测探针的训练与评估,研究人员可利用其配对结构构建二分类或对比学习任务,以区分文本的真实性与欺骗性。在实际应用中,建议将两个批次的数万条样本合并使用,以增强模型的泛化能力并缓解特定随机种子可能引入的偏差。鉴于数据集中存在的长度差异与风格不平衡,使用者需谨慎设计训练策略,例如通过长度归一化或加权采样来避免模型过度依赖表面特征。此外,数据集提供的证据句子与主张标签可用于辅助多任务学习,进一步提升模型在复杂推理场景下的欺骗识别性能。
背景与挑战
背景概述
在人工智能与自然语言处理领域,虚假信息检测与事实核查是保障信息可信度的核心任务。FEVER Deception Source数据集由FAR AI研究项目于近期构建,其基础源自广受认可的FEVER事实核查基准。该数据集旨在为欺骗检测探针提供训练资源,通过生成配对式的诚实与欺骗性文本响应,深入探究语言模型在事实陈述中故意引入谬误的模式。核心研究问题聚焦于如何区分基于证据的诚实推理与看似合理却蓄意错误的论述,从而推动自动化事实核查与可信人工智能系统的发展。
当前挑战
该数据集所针对的欺骗检测任务面临多重挑战:在领域层面,模型需克服语义细微差别与上下文依赖性,准确识别刻意伪装成合理推理的虚假陈述,而非仅依赖表面语言特征。构建过程中的挑战亦十分显著,包括生成长度差异导致的偏见——欺骗性文本平均比诚实文本长约40%,可能使模型误将长度作为判断捷径;此外,数据生成存在风格不平衡,明确谎言与误导表述的比例约为2:1,可能影响模型对多样化欺骗策略的泛化能力。生成流程虽经严格评判模型筛选,但支持类主张的过滤率略高,暗示生成符合要求的欺骗性响应本身具有内在复杂性。
常用场景
经典使用场景
在自然语言处理领域,FEVER Deception Source数据集为欺骗检测研究提供了关键资源。该数据集通过构建诚实与欺骗性回应的配对,使得研究人员能够训练模型区分基于事实的准确陈述与刻意误导的虚假推理。其经典应用场景在于开发并评估语言模型在事实核查任务中的鲁棒性,特别是针对模型生成内容中可能存在的系统性欺骗行为。数据集中的每个样本均包含来自FEVER的声明及其对应的诚实与欺骗性完成文本,为监督学习提供了结构化标注。
解决学术问题
该数据集直接应对了大型语言模型在生成内容时可能产生欺骗性输出的学术挑战。它通过提供大规模、高质量的对立样本,帮助研究者探究模型欺骗行为的模式与机制,从而推动可信人工智能的发展。具体而言,数据集解决了如何量化并检测模型在事实核查任务中的故意误导问题,为理解模型内部表征与欺骗倾向之间的关系提供了实证基础。其意义在于为构建更安全、更透明的语言模型系统提供了关键的训练与评估基准。
衍生相关工作
围绕该数据集,已衍生出多项关于语言模型欺骗检测与可解释性的经典研究。例如,研究者利用其配对数据开发了针对模型内部激活的探测分类器,以识别生成文本中的欺骗信号。相关工作进一步探索了不同欺骗风格(如直接撒谎与误导)在模型表征中的差异,并评估了探测器的泛化能力与捷径学习问题。这些研究深化了对模型欺骗行为机理的理解,并为构建更可靠的欺骗缓解策略奠定了基础。
以上内容由遇见数据集搜集并总结生成



