MedCounterFact

github2026-01-22 更新2026-01-24 收录

下载链接：

https://github.com/KaijieMo-kj/Counterfactual-Medical-Evidence

下载链接

链接失效反馈

官方服务：

资源简介：

MedCounterFact是一个反事实医疗问答（QA）数据集，旨在研究大型语言模型（LLMs）对**不合理的、对抗性的或不安全的医疗证据**的反应。该数据集通过系统地替换临床比较问题和支持证据中的真实医疗干预措施与反事实替代方案构建而成。

MedCounterFact is a counterfactual medical question answering (QA) dataset that aims to investigate the responses of large language models (LLMs) to unreasonable, adversarial, or unsafe medical evidence. This dataset is constructed by systematically replacing real-world medical interventions with counterfactual alternatives in clinical comparative questions and supporting evidence.

创建时间：

2026-01-04

原始信息汇总

MedCounterFact 数据集概述

数据集简介

MedCounterFact 是一个反事实医学问答数据集，旨在研究大型语言模型在面对不可信、对抗性或非安全的医学证据时的行为。该数据集通过系统性地将临床比较问题及其支持证据中的真实医学干预措施替换为反事实替代方案而构建。

数据集来源与背景

该数据集在论文《Faithfulness vs. Safety: Evaluating LLM Behavior Under Counterfactual Medical Evidence》中提出。
论文链接：https://arxiv.org/abs/2601.11886
原始医学问答实例来源于真实世界的随机对照试验（基于 Polzak 等人，2025 年的工作）。

数据集文件

MedCounterFact_original_data.jsonl：包含进行反事实替换前的原始医学问答实例。
MedCounterFact_replaced_data.jsonl：包含反事实版本的数据集，其中问题和证据中的医学干预措施已被替换为反事实刺激。
readme.markdown：数据集文档。

反事实类型

替换后数据集中的每个实例属于以下反事实类别之一：

Nonce：虚构或无意义的词语。
Medical：与证据上下文不匹配的真实医学干预措施。
Non-medical：与医学无关的实体。
Toxic：有害或明显不安全的物质。

数据格式

每个 .jsonl 文件中的一行是一个代表一个问答实例的 JSON 对象。具体数据描述在 DataFormat.md 文件中提供。

引用

若在研究中使用 MedCounterFact，请引用以下论文： bibtex @misc{mo2026faithfulnessvssafetyevaluating, title = {Faithfulness vs. Safety: Evaluating LLM Behavior Under Counterfactual Medical Evidence}, author = {Mo, Kaijie and Venkatayogi, Siddhartha and Shaib, Chantal and Kouzy, Ramez and Xu, Wei and Wallace, Byron C. and Li, Junyi Jessy}, year = {2026}, eprint = {2601.11886}, archivePrefix= {arXiv}, primaryClass = {cs.CL}, url = {https://arxiv.org/abs/2601.11886} }

搜集汇总

数据集介绍

构建方式

在医学问答研究领域，MedCounterFact数据集的构建体现了对大型语言模型在对抗性医疗证据下行为的系统性探索。该数据集以真实世界随机对照试验衍生的医学问答实例为基础，通过系统性地将临床比较问题及其支持证据中的实际医疗干预措施替换为反事实替代方案，从而构建出反事实版本。原始数据来源于Polzak等人2025年的研究，确保了数据来源的可靠性与真实性。替换过程涵盖了多种反事实类型，包括无意义词汇、与证据上下文不匹配的真实医疗干预、非医学实体以及有害物质，旨在模拟不同性质的对抗性输入。

特点

MedCounterFact数据集的核心特点在于其专注于反事实医疗证据的构建与评估。该数据集包含原始数据与替换后数据两个版本，分别对应真实医疗干预与反事实干预的问答实例，为对比研究提供了直接基础。反事实类别被明确划分为非词、医学、非医学和毒性四类，这种分类体系使得研究者能够细致分析语言模型对不同性质对抗性输入的反应模式。数据集的设计紧密围绕医学领域的特殊性，强调了对模型在面临不合理、对抗性或不安全医疗证据时的行为评估，为医学自然语言处理的可信性与安全性研究提供了重要资源。

使用方法

使用MedCounterFact数据集时，研究者可通过加载提供的JSON Lines格式文件进行实例访问。每个实例以JSON对象形式呈现，包含了完整的问答上下文及相应的反事实标签。该数据集主要用于评估大型语言模型在反事实医疗证据下的行为，特别是模型在忠实遵循证据与生成安全回应之间的权衡。典型应用包括分析模型对不同反事实类型的敏感性、检测模型生成内容的可靠性，以及开发提升模型在医学领域安全性与鲁棒性的方法。数据集附带详细的格式说明文档，确保了使用的规范性与可复现性。

背景与挑战

背景概述

在人工智能与医疗健康交叉领域，评估大型语言模型在复杂医学场景下的行为可靠性已成为前沿研究焦点。MedCounterFact数据集于2026年由Kaijie Mo、Siddhartha Venkatayogi、Chantal Shaib、Ramez Kouzy、Wei Xu、Byron C. Wallace及Junyi Jessy Li等研究人员共同创建，其核心研究问题在于探究模型面对反事实医学证据时，如何在忠实性与安全性之间进行权衡。该数据集基于真实世界随机对照试验的医学问答实例，通过系统性地替换医疗干预措施构建反事实变体，旨在深入分析模型对不合理、对抗性或不安全医学信息的响应机制，为提升医疗人工智能的鲁棒性与可信度提供了关键基准。

当前挑战

MedCounterFact数据集致力于解决医学问答领域中模型对反事实证据的评估挑战，具体涉及模型在遭遇虚构术语、语境错配的真实医疗干预、非医学实体以及有害物质等反事实刺激时，能否保持输出的一致性与安全性。在构建过程中，研究团队面临如何从随机对照试验中精准提取并结构化原始问答实例的挑战，同时需确保反事实替换在医学逻辑上的系统性与多样性，以覆盖从无意义词汇到毒性物质的不同对抗性场景，从而构建一个既能反映现实医学复杂性又能有效测试模型边界行为的评估工具。

常用场景

经典使用场景

在医疗人工智能领域，评估大型语言模型对反事实医学证据的响应能力是确保模型安全与可靠性的关键环节。MedCounterFact数据集通过系统性地替换临床比较问题中的真实医学干预措施，构建了包含无意义词汇、医学错配、非医学实体及有害物质等多种反事实类型的问答实例。这一设计使其成为研究模型在面临不合理或对抗性医学信息时，如何平衡忠实性与安全性的经典基准，广泛应用于模型鲁棒性测试与行为分析中。

衍生相关工作

基于MedCounterFact数据集，已衍生出一系列关注模型安全性与忠实性评估的经典研究工作。例如，研究者利用该数据集探究了不同规模与架构的模型在反事实医学证据下的行为模式，比较了模型在毒性检测、上下文矛盾识别等方面的性能差异。这些工作进一步推动了针对医疗领域特定风险的评估框架构建，并激发了关于模型校准、证据检索与安全约束机制的新方法探索，为医疗AI的可信发展奠定了实证基础。

数据集最近研究