MedEinst
收藏MedEinst 数据集概述
数据集基本信息
- 数据集名称: MedEinst
- 许可证: CC-BY 4.0
- 任务类别: 文本分类、问答
- 语言: 英语
- 标签: 医学、反事实、循证医学、鉴别诊断、定势效应
- 规模: 10K < n < 100K
- 主页: https://github.com/zhui711/MedEinst
- 代码仓库: https://github.com/zhui711/MedEinst
- 论文: https://arxiv.org/abs/2601.06636
数据集描述
MedEinst 是一个新颖的大规模反事实基准,专门用于评估医学大语言模型中的定势效应。该数据集包含基于 DDXPlus 数据集专有医学知识库合成的修改后患者叙述。
现有基准主要评估一般医学知识,而 MedEinst 评估模型在遇到非典型病例时对认知偏差的敏感性,特别是其依赖统计捷径而非患者特异性证据的倾向。
数据集采用配对反事实设计。每个患者病例以两种独立的变体呈现:
- 对照病例: 典型的临床表现,其中统计先验与真实诊断一致。
- 陷阱病例: 对抗性变体,其中关键的鉴别证据被最小程度地修改,以在保持与对照病例高度统计相似性的同时,将正确诊断逻辑上翻转为竞争假设。
数据集结构
此存储库包含以下数据划分:
test: 主要基准集,包含 5,383 个反事实对(10,766 个独立评估行)。train: 参考集,包含 10,689 个反事实对(21,378 个独立行),用于支持微调、少样本学习或检索增强生成范式。
数据集以扁平化的“长格式”结构化,便于与标准 LLM 评估工具集成。每行代表一次独立的诊断评估,包含以下属性:
case_id: 患者病例的唯一标识符。同一患者的对照变体和陷阱变体共享相同的case_id。case_type: 表示病例类型。严格为"control"或"trap"。age: 合成患者的年龄。sex: 合成患者的生理性别("M"或"F")。narrative: 第一人称非结构化临床叙述。涵盖患者人口统计资料、主诉、症状以及既往史。ground_truth: 基于所提供叙述的明确、医学上正确的病理。
病理分布
数据集涵盖49种不同的病理,涉及多个临床专科。这些特定疾病的纳入旨在反映鉴别诊断至关重要的急症护理场景。
完整病理列表包括:急性 COPD 加重/感染、急性肌张力障碍反应、急性喉炎、急性中耳炎、急性肺水肿、急性鼻窦炎、过敏性鼻窦炎、过敏反应、贫血、心房颤动、布尔哈夫病、支气管扩张、细支气管炎、支气管炎、支气管痉挛/急性哮喘加重、查加斯病、慢性鼻窦炎、丛集性头痛、哮吼、埃博拉、会厌炎、胃食管反流病、吉兰-巴雷综合征、HIV(初次感染)、流感、腹股沟疝、喉痉挛、局部水肿、重症肌无力、心肌炎、胰腺肿瘤、惊恐发作、心包炎、肺炎、可能的 NSTEMI/STEMI、阵发性室上性心动过速、肺栓塞、肺肿瘤、结节病、鲭鱼中毒、系统性红斑狼疮、自发性气胸、自发性肋骨骨折、稳定型心绞痛、肺结核、不稳定型心绞痛、上呼吸道感染、病毒性咽炎、百日咳。
使用说明与注意事项
- 主要用途: 评估医学 LLM 的定势效应,鼓励未来解决临床 AI 系统中认知偏差、稳健推理和循证医学对齐的研究。
- 关键限制: 该数据集由合成患者叙述构成,严格用于研究目的。鉴于在生成过程中为诱导定势效应所做的反事实假设,在未进行严格临床验证之前,不得使用此数据集训练和部署用于真实世界临床应用的模型。
- 数据特点: 与原始 DDXPlus 数据集类似,MedEinst 偏向于急症护理环境中常见的高死亡率和高发病率病理。鉴别诊断需要仔细关注阴性证据和细微的鉴别特征。
评估指标
为复现论文中引入的偏差陷阱率指标,研究人员应按 case_id 对预测进行分组。当且仅当模型正确预测了 "control" 病例的 ground_truth,但在配对的 "trap" 病例上失败(预测了对照病例的诊断而非陷阱病例的 ground_truth)时,模型才落入定势陷阱。
形式上,偏差陷阱率的计算公式为条件概率:(P( ext{Trap Prediction} == y_{gt} mid ext{Control Prediction} == y_{gt}))。
许可与引用
- 许可证: 本数据集衍生自 DDXPlus 数据集。严格遵守原始
CC-BY 4.0许可证,MedEinst 以相同的CC-BY 4.0许可证发布。 - 引用要求: 如果在研究中使用此数据集,必须同时引用本基准论文和原始 DDXPlus 论文。
- MedEinst 基准引用: 参见 README 中的 BibTeX 条目。
- 原始 DDXPlus 来源引用: 参见 README 中的 BibTeX 条目。




