ReFACT (Reddit False And Correct Texts)
收藏arXiv2025-10-01 更新2025-10-02 收录
下载链接:
https://github.com/ddz5431/ReFACT
下载链接
链接失效反馈官方服务:
资源简介:
ReFACT数据集由来自r/AskScience社区的1001个专家注释的问题-答案对组成,涵盖了广泛的科学领域,旨在检测科学捏造。每个实例都包括一个科学上正确的答案和一个非事实的对照答案,并附有精确的错误跨度标记和错误类型。ReFACT数据集为大型语言模型(LLMs)的评估提供了一个新的基准,支持多阶段评估,包括捏造检测、细粒度错误定位和纠正。
The ReFACT dataset comprises 1001 expert-annotated question-answer pairs sourced from the r/AskScience community, covering a wide range of scientific disciplines, and is designed to detect scientific misinformation. Each instance includes one scientifically accurate answer and one non-factual control answer, paired with precise error span annotations and error type labels. The ReFACT dataset provides a novel benchmark for evaluating Large Language Models (LLMs), supporting multi-stage evaluation tasks including misinformation detection, fine-grained error localization, and error correction.
提供机构:
Hasso Plattner Institute (HPI), University of Potsdam, Germany
创建时间:
2025-09-30
搜集汇总
数据集介绍

构建方式
在科学信息可信度评估领域,ReFACT数据集通过严谨的多阶段流程构建而成。其基础数据源自Reddit平台r/AskScience社区的高质量科学问答,经过严格的筛选标准保留评分超过4分的优质内容。核心构建方法采用双路径转换策略:实体替换通过识别技术术语并替换为语义相近但事实错误的词汇,逻辑否定则针对事实陈述进行极性反转。所有转换结果均经过Gemma-2-27B模型的多轮提示工程处理,并最终由三位独立标注者进行人工验证,确保生成的混淆内容既保持语境连贯性又具备事实错误特性。
特点
该数据集在科学混淆检测领域展现出独特优势。其核心特征体现在1001个专家标注的问答对覆盖10个科学领域,每个实例均包含正确回答与经过精细标注的错误版本。特别值得注意的是数据集提供的三重标注体系:除基础的二元事实性标签外,还包含精确的错误跨度定位和错误类型分类。数据样本平均长度超过130词,呈现真实场景中的长文本科学论述特性。相较于同类基准,ReFACT是唯一同时提供跨度级标注、错误类型分类且完全经过人工验证的科学问答数据集。
使用方法
在模型评估应用中,ReFACT支持分层评估框架的设计实施。第一层级聚焦混淆检测任务,要求模型判断给定回答的事实正确性,可通过独立判断或对比判断两种范式实现。第二层级涉及错误定位,针对已识别的非事实内容,模型需精确标注错误跨度位置,其中否定类混淆要求定位被修改的句子,实体类混淆则需识别所有被替换的实体片段。最高层级的修正任务专门针对实体替换案例,评估模型基于上下文恢复原始事实实体的能力。这种渐进式评估方法能够系统性地揭示模型在科学事实性方面的能力边界。
背景与挑战
背景概述
在大型语言模型日益介入科学信息传播的背景下,其生成流畅但虚假内容的风险日益凸显。ReFACT数据集由波茨坦大学哈索·普拉特纳研究所团队于2025年创建,专门针对科学领域中的虚构现象进行检测与评估。该数据集基于Reddit平台r/AskScience社区的高质量科学问答构建,涵盖生物学、物理学等十个学科领域,通过专家标注的1001对问答数据,为模型在科学语境下的真实性评估提供了重要基准。其创新性在于首次实现了对科学虚构现象的三层次细粒度评估,包括二元判断、错误定位与内容修正,显著推进了可信人工智能系统的研究进程。
当前挑战
该数据集致力于解决科学领域虚构检测的核心难题:如何识别表面流畅但实质错误的科学陈述。构建过程中面临双重挑战:在领域问题层面,科学虚构常采用专业术语与合理句式,需要深度领域知识才能辨识,例如将DNA复制机制错误描述为RNA过程;在数据构建层面,需通过实体替换与逻辑否定等转换策略生成具备上下文连贯性的虚假样本,同时保持标注一致性,这要求结合大语言模型生成与多轮人工验证,并建立精确的跨度级错误标注体系以确保数据质量。
常用场景
经典使用场景
在自然语言处理领域,ReFACT数据集主要应用于大语言模型科学虚构内容的检测与评估。该数据集通过精心设计的实体替换和事实否定两种转换策略,构建了具有挑战性的科学虚构样本,为研究者提供了评估模型在科学语境下事实性判断能力的标准化测试平台。其多层级评估框架使得研究人员能够系统分析模型在虚构检测、错误定位和内容修正三个关键维度上的表现,为提升大语言模型在科学知识传播中的可靠性提供了重要基准。
衍生相关工作
ReFACT数据集推动了多项相关研究工作的开展。基于其细粒度标注特性,研究者开发了针对科学虚构内容的层级检测框架,将传统的二元分类扩展为包含检测、定位和修正的完整流程。该数据集启发了对模型内部知识表示与事实性关联机制的研究,促进了可解释性分析工具的发展。同时,其构建方法论为其他领域特定虚构检测基准的创建提供了参考模板,催生了医学、法律等垂直领域的类似评估资源,形成了科学事实性评估研究的新范式。
数据集最近研究
最新研究方向
在科学信息可信度评估领域,ReFACT数据集推动了大型语言模型科学虚构检测的前沿研究。该数据集通过实体替换与逻辑否定的双重转换策略,构建了包含精细错误定位与类型标注的对抗样本,为模型在科学语境下的细粒度事实性评估提供了新范式。当前研究聚焦于提升模型对领域特异性虚构的敏感度,尤其在生物医学、物理学等专业领域,探索结合知识图谱与多步推理的检测框架,以应对表面流畅但实质错误的科学陈述。这一方向直接关联人工智能可信赖性这一热点议题,为构建可靠的科学问答系统奠定了评估基础。
相关研究论文
- 1ReFACT: A Benchmark for Scientific Confabulation Detection with Positional Error AnnotationsHasso Plattner Institute (HPI), University of Potsdam, Germany · 2025年
以上内容由遇见数据集搜集并总结生成



