MedEinst

Hugging Face2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/zhui711/MedEinst

下载链接

链接失效反馈

官方服务：

资源简介：

MedEinst是一个新颖的大规模反事实基准数据集，专门设计用于评估医学大型语言模型（LLMs）中的Einstellung效应。该数据集基于DDXPlus数据集中的专有医学知识库，包含经过合成修改的患者叙述。其核心目标是评估模型在遇到非典型病例时对认知偏差的敏感性，即依赖统计捷径而非患者特定证据的倾向。数据集采用配对反事实设计，每个患者案例以两种独立变体呈现：控制案例（典型临床表现，统计先验与真实诊断一致）和陷阱案例（关键判别证据被最小修改，逻辑上将正确诊断翻转为竞争假设）。数据集包含测试集（5,383对反事实案例，共10,766行）和训练集（10,689对反事实案例，共21,378行），支持微调、少样本学习或检索增强生成范式。每个案例包含以下字段：案例ID（case_id）、案例类型（case_type）、患者年龄（age）、性别（sex）、临床叙述（narrative）和真实诊断（ground_truth）。数据集涵盖49种不同病理，涉及多个临床专科，特别关注急症护理场景。需要注意的是，该数据集由合成患者叙述组成，严格用于研究目的，不适用于实际临床使用。数据集采用CC-BY 4.0许可，使用时需引用相关论文。

创建时间：

2026-04-12

原始信息汇总

MedEinst 数据集概述

数据集基本信息

数据集名称: MedEinst
许可证: CC-BY 4.0
任务类别: 文本分类、问答
语言: 英语
标签: 医学、反事实、循证医学、鉴别诊断、定势效应
规模: 10K < n < 100K
主页: https://github.com/zhui711/MedEinst
代码仓库: https://github.com/zhui711/MedEinst
论文: https://arxiv.org/abs/2601.06636

数据集描述

MedEinst 是一个新颖的大规模反事实基准，专门用于评估医学大语言模型中的定势效应。该数据集包含基于 DDXPlus 数据集专有医学知识库合成的修改后患者叙述。

现有基准主要评估一般医学知识，而 MedEinst 评估模型在遇到非典型病例时对认知偏差的敏感性，特别是其依赖统计捷径而非患者特异性证据的倾向。

数据集采用配对反事实设计。每个患者病例以两种独立的变体呈现：

对照病例: 典型的临床表现，其中统计先验与真实诊断一致。
陷阱病例: 对抗性变体，其中关键的鉴别证据被最小程度地修改，以在保持与对照病例高度统计相似性的同时，将正确诊断逻辑上翻转为竞争假设。

数据集结构

此存储库包含以下数据划分：

test: 主要基准集，包含 5,383 个反事实对（10,766 个独立评估行）。
train: 参考集，包含 10,689 个反事实对（21,378 个独立行），用于支持微调、少样本学习或检索增强生成范式。

数据集以扁平化的“长格式”结构化，便于与标准 LLM 评估工具集成。每行代表一次独立的诊断评估，包含以下属性：

case_id: 患者病例的唯一标识符。同一患者的对照变体和陷阱变体共享相同的 case_id。
case_type: 表示病例类型。严格为 "control" 或 "trap"。
age: 合成患者的年龄。
sex: 合成患者的生理性别（"M" 或 "F"）。
narrative: 第一人称非结构化临床叙述。涵盖患者人口统计资料、主诉、症状以及既往史。
ground_truth: 基于所提供叙述的明确、医学上正确的病理。

病理分布

数据集涵盖49种不同的病理，涉及多个临床专科。这些特定疾病的纳入旨在反映鉴别诊断至关重要的急症护理场景。

完整病理列表包括：急性 COPD 加重/感染、急性肌张力障碍反应、急性喉炎、急性中耳炎、急性肺水肿、急性鼻窦炎、过敏性鼻窦炎、过敏反应、贫血、心房颤动、布尔哈夫病、支气管扩张、细支气管炎、支气管炎、支气管痉挛/急性哮喘加重、查加斯病、慢性鼻窦炎、丛集性头痛、哮吼、埃博拉、会厌炎、胃食管反流病、吉兰-巴雷综合征、HIV（初次感染）、流感、腹股沟疝、喉痉挛、局部水肿、重症肌无力、心肌炎、胰腺肿瘤、惊恐发作、心包炎、肺炎、可能的 NSTEMI/STEMI、阵发性室上性心动过速、肺栓塞、肺肿瘤、结节病、鲭鱼中毒、系统性红斑狼疮、自发性气胸、自发性肋骨骨折、稳定型心绞痛、肺结核、不稳定型心绞痛、上呼吸道感染、病毒性咽炎、百日咳。

使用说明与注意事项

主要用途: 评估医学 LLM 的定势效应，鼓励未来解决临床 AI 系统中认知偏差、稳健推理和循证医学对齐的研究。
关键限制: 该数据集由合成患者叙述构成，严格用于研究目的。鉴于在生成过程中为诱导定势效应所做的反事实假设，在未进行严格临床验证之前，不得使用此数据集训练和部署用于真实世界临床应用的模型。
数据特点: 与原始 DDXPlus 数据集类似，MedEinst 偏向于急症护理环境中常见的高死亡率和高发病率病理。鉴别诊断需要仔细关注阴性证据和细微的鉴别特征。

评估指标

为复现论文中引入的偏差陷阱率指标，研究人员应按 case_id 对预测进行分组。当且仅当模型正确预测了 "control" 病例的 ground_truth，但在配对的 "trap" 病例上失败（预测了对照病例的诊断而非陷阱病例的 ground_truth）时，模型才落入定势陷阱。

形式上，偏差陷阱率的计算公式为条件概率：(P( ext{Trap Prediction} == y_{gt} mid ext{Control Prediction} == y_{gt}))。

许可与引用

许可证: 本数据集衍生自 DDXPlus 数据集。严格遵守原始 CC-BY 4.0 许可证，MedEinst 以相同的 CC-BY 4.0 许可证发布。
引用要求: 如果在研究中使用此数据集，必须同时引用本基准论文和原始 DDXPlus 论文。
- MedEinst 基准引用: 参见 README 中的 BibTeX 条目。
- 原始 DDXPlus 来源引用: 参见 README 中的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在医学人工智能领域，评估模型认知偏差的需求日益凸显。MedEinst数据集采用创新的配对反事实设计构建而成，其基础源自DDXPlus专有医学知识库。构建过程首先合成典型的患者叙事作为控制案例，随后通过最小化修改关键鉴别证据，生成具有高度统计相似性但诊断逻辑完全相反的陷阱案例，从而形成一一对应的案例对。这种结构旨在精确诱导和量化大型语言模型在处理非典型病例时依赖统计先验而非具体证据的定势效应。

使用方法

研究者可通过Hugging Face的datasets库便捷加载MedEinst数据集，并利用其扁平化的长格式结构进行评估。标准流程包括按病例标识符对预测结果进行分组，依据论文定义的公式计算偏差陷阱率。该指标反映了模型在控制案例预测正确的前提下，于陷阱案例中错误地重复控制案例诊断的条件概率。数据集同时提供了训练集以支持微调或少样本学习等研究范式，但需注意其合成性质仅适用于研究目的，不可直接用于临床部署。

背景与挑战

背景概述

在医疗人工智能领域，评估大型语言模型（LLMs）的临床推理能力一直是核心研究议题。MedEinst数据集于2026年由研究人员陈文婷、朱忠瑞、黄国林和王文轩等人创建，其核心研究问题聚焦于量化医学LLMs中的“定势效应”（Einstellung Effect），即模型在诊断过程中过度依赖统计先验而非具体患者证据的认知偏差。该数据集基于DDXPlus专有医学知识库，通过合成修改的患者叙事构建，旨在推动证据导向医学（EBM）对齐与鲁棒性推理研究，为临床AI系统认知偏见的识别与缓解提供了关键基准。

当前挑战

MedEinst数据集致力于解决医学诊断中模型认知偏差评估的挑战，其核心在于如何精准捕捉LLMs在非典型病例中陷入统计捷径陷阱的倾向。构建过程中的主要挑战涉及对抗性案例设计：需在保持控制案例与陷阱案例高度统计相似性的前提下，通过最小化关键判别证据的修改，实现诊断结果的逻辑翻转，同时确保医学合理性与病理学多样性。此外，数据集需严格遵循合成数据的伦理边界，避免直接应用于真实临床场景，这要求生成过程在诱导偏倚与维护医学严谨性之间取得平衡。

常用场景

经典使用场景

在医学人工智能领域，评估大型语言模型在临床推理中的认知偏差至关重要。MedEinst数据集通过其独特的配对反事实设计，为研究者提供了一个经典场景：系统性地测试模型在面对统计先验与患者特异性证据冲突时的诊断稳健性。具体而言，数据集中的每个病例均包含控制案例与陷阱案例两种变体，前者呈现典型临床表现，后者则通过微调关键证据逻辑翻转诊断，从而模拟现实医疗中非典型病例的挑战。这一设计使得研究者能够精确量化模型陷入定势效应（Einstellung Effect）的倾向，即模型是否过度依赖统计模式匹配而忽视个体化临床线索。

解决学术问题

MedEinst数据集致力于解决医学人工智能研究中的核心问题：如何评估并缓解大型语言模型在临床决策中的认知偏差。传统医学基准多聚焦于模型的一般医学知识掌握程度，却忽视了模型在复杂、反事实情境下的推理缺陷。该数据集通过构建大规模的反事实诊断对，直接针对定势效应这一认知偏差，揭示了模型在统计捷径与证据基础推理之间的权衡困境。其意义在于推动了医学AI从单纯知识评估向认知稳健性评估的范式转变，为开发更可靠、更符合循证医学原则的临床辅助系统提供了关键基准。

实际应用

尽管MedEinst数据集基于合成叙事并严格限定于研究用途，但其设计理念对实际医疗AI应用具有深远启示。该数据集可用于开发和验证临床决策支持系统的抗偏置能力，确保其在面对症状相似但病因迥异的疑难病例时，能够避免误入统计陷阱，做出基于证据的鉴别诊断。此外，它可作为医学教育工具，帮助培训医学生和AI系统识别并克服诊断过程中的认知定势。在医疗AI安全性与可靠性日益受关注的背景下，此类基准为模型在部署前的严格评估提供了不可或缺的测试场。

数据集最近研究